Suchergebnisse für Anfrage "text-mining"
Wie verwende ich OpenNLP, um POS-Tags in R zu erhalten?
Hier ist der R-Code: library(NLP) library(openNLP) tagPOS <- function(x, ...) { s <- as.String(x) word_token_annotator <- Maxent_Word_Token_Annotator() a2 <- Annotation(1L, "sentence", 1L, nchar(s)) a2 <- annotate(s, word_token_annotator, a2) ...
Wie kann ich Twitter-Daten in R bereinigen?
Ich habe Tweets mit dem twitteR-Paket aus Twitter extrahiert und in einer Textdatei gespeichert. Ich habe Folgendes am Korpus durchgeführt xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, ...
CPU- und speichereffiziente NGram-Extraktion mit R
Ich habe einen Algorithmus geschrieben, der NGramme (Bigramme, Trigramme, ... bis 5 Gramm) aus einer Liste von 50000 Straßenadressen extrahiert. Mein Ziel ist es, für jede Adresse einen Booleschen Vektor zu haben, der angibt, ob die NGrams in der ...
alle möglichen Wortform-Vervollständigungen eines (biomedizinischen) Wortstamms
Ich kenne mich mit Wortstamm und Vervollständigung aus dem TM-Paket in R aus. Ich versuche eine schnelle und schmutzige Methode zu finden, um alle Varianten eines bestimmten Wortes (innerhalb eines Korpus) zu finden. Zum Beispiel möchte ich ...
Wirklich schnelle Wort-Ngram-Vektorisierung in R
edit: Das neue Paket text2vec ist exzellent und löst dieses Problem (und viele andere) wirklich gut. text2vec auf CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec auf github [https://github.com/dselivanov/text2vec] ...
Text Mining mit TM-Paket in R, entfernen Sie Wörter, die mit [http] beginnen, oder jedes andere spezifische Wort
Ich bin neu in R und Text Mining. Ich hatte aus Twitter-Feeds eine Wortwolke gemacht, die mit einem Begriff in Verbindung stand. Das Problem, mit dem ich konfrontiert bin, ist, dass in der Wordcloud http: ... oder htt ... angezeigt wird. Wie gehe ...
“RTextTools” create_matrix hat einen Fehler erhalten
Ich habe das RTextTools-Paket ausgeführt, um ein Textklassifizierungsmodell zu erstellen. Und als ich den Vorhersagedatensatz vorbereitete und versuchte, ihn in eine Matrix umzuwandeln. Ich habe den Fehler erhalten als: Error in if ...
Wie man den Anfang und das Ende von Satzmarkierungen mit quanteda @ behä
Ich versuche, 3 Gramm mit Rs zu erstellenquanteda package. Ich habe Mühe, einen Weg zu finden, um den Anfang und das Ende der Satzmarkierungen in n-Gramm zu halte<s> und</s> wie im Code unten. Ich dachte, dass mit demkeptFeatures mit einem ...
Speicherfehler in Python mit Numpy-Array
Ich erhalte den folgenden Fehler für diesen Code: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: ...
Clustering von Text in MATLAB
Ich möchte hierarchisch agglomerative Clustering für Texte in MATLAB durchführen. Sagen Sie, ich habe vier Sätze, I have a pen. I have a paper. I have a pencil. I have a cat. Ich möchte die obigen vier Sätze in Gruppen zusammenfassen, um zu ...