Suchergebnisse für Anfrage "tokenize"
Tokenize, entfernen Sie Stoppwörter mit Lucene mit Java
Ich versuche mit Lucene Stoppwörter aus einer txt-Datei zu tokenisieren und zu entfernen. Ich habe das:
Warum ist n +++ n gültig, während n ++++ n nicht gültig ist?
In Java ist der Ausdruck:
implizite Deklaration der Funktion 'strtok_r' [-Wimplicit-function-declare] inspite include <string.h>
Ich habe den folgenden Code, um eine Zeichenfolge mit durch getrennten Zeilen zu kennzeichnen\n und jede Zeile hat durch a getrennte ganze Zahlen\t: void string_to_int_array(char file_contents[BUFFER_SIZE << 5], int array[200][51]) { char ...
Wie man in Lucene nur bestimmte Wörter symbolisiert
Ich verwende Lucene für mein Projekt und benötige einen benutzerdefinierten Analyzer. Code ist: public class MyCommentAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents( String fieldName, Reader reader ) ...
Wie man Stringstream verwendet, um durch Kommas getrennte Zeichenfolgen zu trennen [duplizieren]
Diese Frage hat hier bereits eine Antwort: Wie kann ich die Wörter einer Zeichenfolge durchlaufen? [/questions/236129/how-do-i-iterate-over-the-words-of-a-string] 76 answers Ich habe folgenden Code: std::string str = "abc def,ghi"; ...
Python - RegEx zum Teilen von Text in Sätze (Satz-Tokenisierung) [duplizieren]
Diese Frage hat hier bereits eine Antwort: Python Split Text auf Sätze [/questions/4576077/python-split-text-on-sentences] 9 answersIch möchte eine Liste von Sätzen aus einer Zeichenfolge erstellen und sie dann ausdrucken. Ich möchte NLTK nicht ...
Wie bekomme ich ein Token von einem Lucene TokenStream?
Ich versuche, Apache Lucene zum Tokenisieren zu verwenden, und bin verblüfft, wie ich Token von einem @ erhalten kanTokenStream. Das Schlimmste ist, dass ich mir die Kommentare in den JavaDocs ansehe, die meine Frage ...
Tokenizing Zeichenfolgen in C
Ich habe versucht, einen String mit SPACE als Trennzeichen zu kennzeichnen, aber es funktioniert nicht. Hat jemand einen Vorschlag, warum es nicht funktioniert? Edit: tokenizing using: strtok(string, " "); Der Code ist wie folgt pch = strtok ...