Suchergebnisse für Anfrage "tokenize"

2 die antwort

Wortumbruch in Sprachen ohne Leerzeichen zwischen Wörtern (z. B. asiatisch)?

2 die antwort

Tokenize, entfernen Sie Stoppwörter mit Lucene mit Java

Ich versuche mit Lucene Stoppwörter aus einer txt-Datei zu tokenisieren und zu entfernen. Ich habe das:

5 die antwort

Tokenisieren einer Zeichenfolge, wobei Trennzeichen in Python beibehalten werden

TOP-Veröffentlichungen

1 die antwort

Warum ist n +++ n gültig, während n ++++ n nicht gültig ist?

In Java ist der Ausdruck:

4 die antwort

implizite Deklaration der Funktion 'strtok_r' [-Wimplicit-function-declare] inspite include <string.h>

Ich habe den folgenden Code, um eine Zeichenfolge mit durch getrennten Zeilen zu kennzeichnen\n und jede Zeile hat durch a getrennte ganze Zahlen\t: void string_to_int_array(char file_contents[BUFFER_SIZE << 5], int array[200][51]) { char ...

1 die antwort

Wie man in Lucene nur bestimmte Wörter symbolisiert

Ich verwende Lucene für mein Projekt und benötige einen benutzerdefinierten Analyzer. Code ist: public class MyCommentAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents( String fieldName, Reader reader ) ...

2 die antwort

Wie man Stringstream verwendet, um durch Kommas getrennte Zeichenfolgen zu trennen [duplizieren]

Diese Frage hat hier bereits eine Antwort: Wie kann ich die Wörter einer Zeichenfolge durchlaufen? [/questions/236129/how-do-i-iterate-over-the-words-of-a-string] 76 answers Ich habe folgenden Code: std::string str = "abc def,ghi"; ...

10 die antwort

Python - RegEx zum Teilen von Text in Sätze (Satz-Tokenisierung) [duplizieren]

Diese Frage hat hier bereits eine Antwort: Python Split Text auf Sätze [/questions/4576077/python-split-text-on-sentences] 9 answersIch möchte eine Liste von Sätzen aus einer Zeichenfolge erstellen und sie dann ausdrucken. Ich möchte NLTK nicht ...

4 die antwort

Wie bekomme ich ein Token von einem Lucene TokenStream?

Ich versuche, Apache Lucene zum Tokenisieren zu verwenden, und bin verblüfft, wie ich Token von einem @ erhalten kanTokenStream. Das Schlimmste ist, dass ich mir die Kommentare in den JavaDocs ansehe, die meine Frage ...

8 die antwort

Tokenizing Zeichenfolgen in C

Ich habe versucht, einen String mit SPACE als Trennzeichen zu kennzeichnen, aber es funktioniert nicht. Hat jemand einen Vorschlag, warum es nicht funktioniert? Edit: tokenizing using: strtok(string, " "); Der Code ist wie folgt pch = strtok ...