Name Extraktion - CV / Resume - Stanford NER / OpenNLP

Question

Jun 05, 2015, 12:35 PM

nlp stanford-nlp opennlp named-entity-recognition named-entity-extraction

Name Extraktion - CV / Resume - Stanford NER / OpenNLP

Ich arbeite derzeit an einem Lernprojekt, um einen individuellen Namen aus dem Lebenslauf / Lebenslauf zu extrahieren.

egenwärtig arbeite ich mit Stanford-NER und OpenNLP zusammen, die beide mit einem gewissen Erfolg auf der Suche nach "nicht-westlichen" Typnamen sind (keine Beleidigung für irgendjemanden

Meine Frage ist, ob ich aufgrund der fehlenden Satzstruktur oder des fehlenden Kontextes in Bezug auf den Namen einer Person in einem Lebenslauf / Lebenslauf eine signifikante Verbesserung der Namensidentifikation erzielen kann, indem ich etwas erzeuge, das einem Lebenslaufkorpus ähnelt.

Meine ersten Gedanken sind, dass ich wahrscheinlich mehr Erfolg haben würde, wenn ich einen Satz spalte, offensichtlichen Text entferne und ein wenig Logik anwende, um den Namen der Person bestmöglich zu erraten.

Ich kann sehen, wie das Training funktionieren würde, wenn der Name in einem strukturierten Satz vorkommt, aber als eigenständige Einheit ohne Kontext (Akbar Agho zum Beispiel) kann ich davon ausgehen, dass es ungeachtet des Trainings Probleme gibt.

Gibt es eine AI-Ebene, die bei ausreichender Datenmenge ein Muster für die Namensfindung formuliert, oder sollte ich einfach eine logikbasierte Zeichenfolgeextraktion anwenden?

Ich würde die Gedanken, Meinungen und Vorschläge der Leute schätzen.

Side note: Ich habe PHP mit Appache Tika verwendet, um die anfängliche Textextraktion aus Doc / Pdf durchzuführen, und experimentiere mit Stanford und OpenNLP über PHP / Commandline.

Chris