Suchergebnisse für Anfrage "n-gram"

4 die antwort

CPU- und speichereffiziente NGram-Extraktion mit R

Ich habe einen Algorithmus geschrieben, der NGramme (Bigramme, Trigramme, ... bis 5 Gramm) aus einer Liste von 50000 Straßenadressen extrahiert. Mein Ziel ist es, für jede Adresse einen Booleschen Vektor zu haben, der angibt, ob die NGrams in der ...

4 die antwort

Finden von Ngrammen in R und Vergleichen von Ngrammen über Korpora hinweg

Ich fange gerade mit dem TM-Paket in R an, bitte entschuldige mich für die große alte Textwand. Ich habe ein ziemlich großes Korpus sozialistischer / kommuni...

2 die antwort

Elasticsearch - EdgeNgram + highlight + term_vector = schlechte highlights

Wenn ich einen Analysator mit Edgengramm (min = 3, max = 7, front) + term_vector = with_positions_offsets benutzeMit Dokument mit text = "CouchDB"W...

TOP-Veröffentlichungen

2 die antwort

Wie verwende ich CountVectorizerand () von sklearn, um n-Gramme zu erhalten, die Interpunktionen als separate Token enthalten?

Ich benutze sklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] , um n-Gramm zu berechnen. Beispiel import sklearn.feature_extraction.text # ...

4 die antwort

Wirklich schnelle Wort-Ngram-Vektorisierung in R

edit: Das neue Paket text2vec ist exzellent und löst dieses Problem (und viele andere) wirklich gut. text2vec auf CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec auf github [https://github.com/dselivanov/text2vec] ...

5 die antwort

Einfache Implementierung von N-Gram, tf-idf und Cosine Ähnlichkeit in Python

Ich muss Dokumente vergleichen, die in einer Datenbank gespeichert sind, und eine Ähnlichkeitsbewertung zwischen 0 und 1 finden. Die Methode, die ich verwenden muss, muss sehr einfach sein. Implementierung einer Vanilla-Version von n-Gramm ...

1 die antwort

Wie extrahiere ich ein Zeichen aus Sätzen? - Python

Folgendeword2ngrams Funktion extrahiert Zeichen 3 Gramm aus einem Wort: >>> x = 'foobar' >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] ['foo', 'oob', 'oba', 'bar']Dieser Beitrag zeigt die Zeichenextraktion für ein einzelnes Wort,Schnelle ...

4 die antwort

ann das Suchmodul von @Can Drupal nach einer Teilzeichenfolge suchen? (Teilweise Suche)

as Kernsuchmodul von @ Drupal sucht nur nach Stichwörtern, z. "Sandwich". Kann ich die Suche mit einem Teilstring durchführen, z. "sandw" und meine Sandwich-Ergebnisse zurückgeben? Möglicherweise gibt es ein Plugin, das das macht?

4 die antwort

R und TM-Paket: Erstellen einer Term-Document-Matrix mit einem Wörterbuch aus einem oder zwei Wörtern?

Zweck Ich möchte ein @ erstell term-document matrix Verwendung einerWörterbuc mit zusammengesetzten Wörtern oder bigrams, wie einige derSchlüsselwörte. Web-Suche Als Neuling im Text-Mining und imtm Paket inR, Ich bin ins Internet gegangen, um ...

2 die antwort

Finden Sie alle zwei Wortphrasen, die in einem Datensatz in mehr als einer Zeile vorkommen

Wir möchten eine Abfrage ausführen, die zwei Wortphrasen zurückgibt, die in mehr als einer Zeile erscheinen. Also für z. nimm den String "Data Ninja&quo...