Suchergebnisse für Anfrage "text-mining"

2 die antwort

alle möglichen Wortform-Vervollständigungen eines (biomedizinischen) Wortstamms

Ich kenne mich mit Wortstamm und Vervollständigung aus dem TM-Paket in R aus. Ich versuche eine schnelle und schmutzige Methode zu finden, um alle Varianten eines bestimmten Wortes (innerhalb eines Korpus) zu finden. Zum Beispiel möchte ich ...

2 die antwort

Speichern und erneutes Verwenden von TfidfVectorizer in scikit learn

Ich benutze TfidfVectorizer in scikit und lerne, eine Matrix aus Textdaten zu erstellen. Jetzt muss ich dieses Objekt speichern, um es später wiederzuverwenden. Ich habe versucht, pickle zu verwenden, aber es gab den folgenden ...

1 die antwort

R Text Mining - wie ändert man Texte in einer R-Datenrahmenspalte in mehrere Spalten mit Bigram-Frequenzen?

TOP-Veröffentlichungen

2 die antwort

Verwenden Sie R, um PDF-Dateien in Textdateien für Text Mining zu konvertieren

Ich habe fast tausend PDF-Zeitschriftenartikel in einem Ordner. Ich muss mir eine SMS mit allen Abstracts des Artikels aus dem gesamten Ordner schicken. Jetzt mache ich folgendes: dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf to ...

1 die antwort

Big Text Corpus bricht tm_map

Ich habe mir in den letzten Tagen den Kopf gebrochen. Ich habe alle SO-Archive durchsucht und die vorgeschlagenen Lösungen ausprobiert, aber es scheint, als würde dies nicht funktionieren. Ich habe Sätze von txt-Dokumenten in Ordnern wie 2000 ...

2 die antwort

Wie finde ich die n-Gramm-Häufigkeit einer Spalte in einem Pandas-Datenrahmen?

Below ist der Eingabepandas-Datenrahmen, den ich habe. [/imgs/ltSrD.png] Ich möchte die Häufigkeit von Unigrammen und Bigrammen ermitteln. Ein Beispiel von dem, was ich erwarte, ist unten gezeigt [/imgs/7NOKk.png] Wie mache ich das mit nltk ...

12 die antwort

Wie liest man mit Python nur Zeilen in einer Textdatei nach einem bestimmten String?

Mit Python möchte ich alle Zeilen in einer Textdatei, die nach einer bestimmten Zeichenfolge stehen, in einem Wörterbuch lesen. Ich würde das gerne über Tausende von Textdateien tun. Ich kann die bestimmte Zeichenfolge ('Abstract') mit dem ...

2 die antwort

Speicherfehler in Python mit Numpy-Array

Ich erhalte den folgenden Fehler für diesen Code: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: ...

4 die antwort

R-Project keine anwendbare Methode für 'Meta', die auf ein Objekt der Klasse 'Charakter' angewendet wird

Ich versuche diesen Code auszuführen (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate the ...

4 die antwort

Wirklich schnelle Wort-Ngram-Vektorisierung in R

edit: Das neue Paket text2vec ist exzellent und löst dieses Problem (und viele andere) wirklich gut. text2vec auf CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec auf github [https://github.com/dselivanov/text2vec] ...