Wie man ungültige Unicode-Zeichen aus Strings in Java entfernt

Question

Nov 15, 2015, 05:30 PM

Wie man ungültige Unicode-Zeichen aus Strings in Java entfernt

Ich benutze dasCoreNLP Neural Network Dependency Parser, um einige Social-Media-Inhalte zu analysieren. Leider enthält die Datei Zeichen, die laut fileformat.info, ungültige Unicode-Zeichen oder Unicode-Ersatzzeichen. Dies sind zum Beispiel U + D83D oder U + FFFD. Befinden sich diese Zeichen in der Datei, antwortet coreNLP mit Fehlermeldungen wie der folgenden:

Nov 15, 2015 5:15:38 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+D83D, decimal: 55357)

Beyogen aufDie Antwort, ich habe versuchtdocument.replaceAll("\\p{C}", "");, um nur diese Zeichen zu entfernen.document hier ist nur das Dokument als String. Aber das hat nicht geholfen.

Wie kann ich diese Zeichen aus der Zeichenfolge entfernen, bevor ich sie an coreNLP übergebe?

UPDATE (16. November):

Der Vollständigkeit halber sollte ich erwähnen, dass ich diese Frage nur gestellt habe, um die große Menge an Fehlermeldungen durch Vorverarbeitung der Datei zu vermeiden. CoreNLP ignoriert nur Zeichen, die es nicht verarbeiten kann. Das ist also nicht das Problem.

Antworten auf die Frage(8)

Top Fragen

0 die antwort

Wie kann ich in einer Spring / MVC 3.0-App häufige Fehlerseitenvorlagen mit Kacheln verwenden?

0 die antwort

Verwendung von string_view für die Kartensuche

0 die antwort

Wie wird bei wiederholten Messdaten eine Teilmenge zur Auswahl übereinstimmender Fälle und Kontrollen erstellt?

0 die antwort

Wie werden Optionsobjekte als Parameter an die im zweiten Parameter von jQuery () festgelegte Methode übergeben?

0 die antwort

Multithread-Programm in C ++ zeigt die gleiche Leistung wie ein serielles Programm

Du bist sehr aktiv! Es ist großartig!

Wie man ungültige Unicode-Zeichen aus Strings in Java entfernt

Antworten auf die Frage(8)

Ihre Antwort auf die Frage

Top Fragen