Suchergebnisse für Anfrage "text-mining"

4 die antwort

R-Project keine anwendbare Methode für 'Meta', die auf ein Objekt der Klasse 'Charakter' angewendet wird

Ich versuche diesen Code auszuführen (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate the ...

5 die antwort

tm: Datenrahmen einlesen, Text-IDs behalten, DTM erstellen und mit anderem Datensatz verbinden

Ich verwende das Paket tm. Say Ich habe einen Datenrahmen von 2 Spalten, 500 Zeilen. Die erste Spalte ist die ID, die zufällig generiert wird und sowohl Zeichen als auch Nummer enthält: "txF87uyK" Die zweite Spalte ist der aktuelle Text: "Das ...

1 die antwort

arabic Text Mining mit R [closed]

Ich bin ein neuer Benutzer und möchte nur Hilfe bei meiner Arbeit an R bekommen. Ich mache arabisches Text-Mining und würde mich über Hilfe freuen, wenn jemand Erfahrung auf diesem Gebiet hat. Bisher hatte ich das Gefühl, den arabischen Text zu ...

TOP-Veröffentlichungen

2 die antwort

Entfernen zu häufiger Wörter (kommen in mehr als 80% der Dokumente vor) in R

Ich arbeite mit dem 'tm'-Paket, um ein Korpus zu erstellen. Ich habe die meisten Vorverarbeitungsschritte durchgeführt. Der Rest besteht darin, zu häufige Wörter zu entfernen (Begriffe, die in mehr als 80% der Dokumente vorkommen). Kann ...

1 die antwort

Big Text Corpus bricht tm_map

Ich habe mir in den letzten Tagen den Kopf gebrochen. Ich habe alle SO-Archive durchsucht und die vorgeschlagenen Lösungen ausprobiert, aber es scheint, als würde dies nicht funktionieren. Ich habe Sätze von txt-Dokumenten in Ordnern wie 2000 ...

6 die antwort

Erstellen der Kantenliste für das gleichzeitige Auftreten von Wörtern in R

Ich habe einen Satzblock und möchte die ungerichtete Kantenliste des Wortzusammenspiels erstellen und die Häufigkeit jeder Kante anzeigen. Ich habe mir das @ angesehtm package hat aber keine ähnlichen Funktionen gefunden. Gibt es ein Paket / ...

2 die antwort

Was ist das CoNLL-Datenformat?

Ich bin neu im Text-Mining. Ich verwende eine Open-Source-JAR-Datei (Mate Parser), die mir nach dem Parsen von Abhängigkeiten eine Ausgabe im CoNLL 2009-Format liefert. Ich möchte die Ergebnisse der Abhängigkeitsanalyse für ...

12 die antwort

Wie liest man mit Python nur Zeilen in einer Textdatei nach einem bestimmten String?

Mit Python möchte ich alle Zeilen in einer Textdatei, die nach einer bestimmten Zeichenfolge stehen, in einem Wörterbuch lesen. Ich würde das gerne über Tausende von Textdateien tun. Ich kann die bestimmte Zeichenfolge ('Abstract') mit dem ...

2 die antwort

big document term matrix - Fehler beim Zählen der Anzahl der Zeichen von Dokumenten

Ich habe mit dem Paket @ eine große Dokumentterm-Matrix erstellRTextTools. etzt versuche ich, die Anzahl der Zeichen in den Matrixzeilen zu zählen, damit ich leere Dokumente entfernen kann, bevor ich eine Themenmodellierung durchführ Mein Code ...

2 die antwort

Speichern und erneutes Verwenden von TfidfVectorizer in scikit learn

Ich benutze TfidfVectorizer in scikit und lerne, eine Matrix aus Textdaten zu erstellen. Jetzt muss ich dieses Objekt speichern, um es später wiederzuverwenden. Ich habe versucht, pickle zu verwenden, aber es gab den folgenden ...