Suchergebnisse für Anfrage "tokenize"
Gibt es einen Tokenizer für eine CPP-Datei
Ich habe eine CPP-Datei mit einer riesigen Klassenimplementierung. Jetzt muss ich die Quelldatei selbst ändern. Für diesen Zweck gibt es eine Bibliothek / api / tool, die diese Datei für mich tokenisiert und mir jedes Mal ein Token gibt, wenn ...
Splitting chinesisches Dokument in Sätze [geschlossen]
Ich muss chinesischen Text in mehrere Sätze aufteilen. Ich habe den Stanford DocumentPreProcessor ausprobiert. Es funktionierte ganz gut für Englisch, aber nicht für Chinesisch. Bitte teilen Sie mir gute Satzteiler für Chinesisch vorzugsweise ...
Bad Zip-Datei Fehler in POS-Tagging in NLTK in Python
Ich bin neu in Python und NLTK ..Ich möchte Word-Tokenisierung und POS-Tagging in diesem tun.Ich habe Nltk 3.0 in meinem Ubuntu 14.04 mit einem Standard-Python 2.7.6 installiert.Als erstes habe ich versucht, Tokenisierung eines einfachen Satzes ...
array oder Liste in Oracle mit cfprocparam
Ich habe eine Liste von Werten, die ich über eine gespeicherte Prozedur in eine Tabelle einfügen möchte. Ich dachte, ich würde ein Array an Oracle übergeben und die Schleife durch das Array führen, aber ich verstehe nicht, wie ich ein Array an ...
Parsing Pipe begrenzte Zeichenfolge in Spalten?
Ich habe eine Spalte mit durch Pipe getrennten Werten wie: '23 | 12.1 | 450 | 30 | 9 | 78 | 82,5 | 92,1 | 120 | 185 | 52 | 11 ' Ich möchte diese Spalte analysieren, um eine Tabelle mit 12 entsprechenden Spalten zu füllen: month1, month2, ...
Wie konvertiert man CSV in Tabelle in Oracle
Wie kann ich ein Paket erstellen, das Ergebnisse im Tabellenformat zurückgibt, wenn es in CSV-Werten übergeben wird? select * from table(schema.mypackage.myfunction('one, two, three'))should return one two three Ich habe etwas von @ ...
get Indizes des Originaltextes von nltk word_tokenize
Ich toke einen Text mit nltk.word_tokenize und ich möchte auch den Index im ursprünglichen Rohtext auf das erste Zeichen jedes Tokens setzen, d. H. import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ['hello', 'world'] Wie kann ich ...
Wie man einen String in der Shell teilt und das letzte Feld erhält
Angenommen, ich habe die Zeichenfolge1:2:3:4:5 und ich möchte sein letztes Feld erhalten 5 in diesem Fall). Wie mache ich das mit Bash? Ich habe es versuchtcut, aber ich weiß nicht, wie ich das letzte Feld mit @ angeben so-f.
Wie verwende ich CountVectorizerand () von sklearn, um n-Gramme zu erhalten, die Interpunktionen als separate Token enthalten?
Ich benutze sklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] , um n-Gramm zu berechnen. Beispiel import sklearn.feature_extraction.text # ...
Wie kann ein erweitertes Makro getokenet werden (local: dir)?
Ich weiß, mein Titel ist in dem Sinne verwirrend, dass dietokenizeer Befehl @ ist für eine Zeichenfolge angegeben. Ich habe viele Ordner, die massive, getrennte, falsch benannte Excel-Dateien enthalten (die meisten sind von der Website ...