Rechtschreibkorrektur für die Datennormalisierung in Java

Question

Feb 23, 2010, 11:45 AM

Rechtschreibkorrektur für die Datennormalisierung in Java

Ich suche eine Java-Bibliothek, um eine erste Rechtschreibprüfung / Datennormalisierung für benutzergenerierte Textinhalte durchzuführen. Stellen Sie sich die Interessen vor, die in einem Facebook-Profil eingegeben wurden.

Dieser Text wird zu einem bestimmten Zeitpunkt (vor oder nach der Rechtschreibkorrektur, was auch immer besser funktioniert) mit einem Token versehen und ein Teil davon wird als Schlüssel für die Suche verwendet (genaue Übereinstimmung). Es wäre schön, Rechtschreibfehler und ähnliches zu reduzieren, um mehr Streichhölzer zu produzieren. Es wäre sogar noch besser, wenn die Korrektur bei Token, die länger als nur ein Wort sind, z. "Kaffee trinken" würde zu "Kaffee trinken" und nicht zu "Kaffee denken".

Ich habe die folgenden Java-Bibliotheken für die Rechtschreibkorrektur gefunden:

JAZZY scheint nicht in aktiver Entwicklung zu sein. Darüber hinaus scheint der wörterbuchbasierte Ansatz aufgrund der Verwendung von Nicht-Standardsprachen in Profilen sozialer Netzwerke und Token mit mehreren Wörtern unangemessen zu sein.APACHE LUCENE scheint einen zu habenstatistische Rechtschreibprüfung das sollte viel passender sein. Frage hier, wie man ein gutes Wörterbuch erstellt? (Andernfalls wird Lucene nicht verwendet, sodass kein Index vorhanden ist.)

Anregungen sind willkommen!