Wie finde ich nur "interessante" Wörter aus einem Korpus?

Question

Aug 13, 2010, 10:19 PM

parsing lexical-analysis language-agnostic algorithm

Wie finde ich nur "interessante" Wörter aus einem Korpus?

Ich analysiere Sätze. Ich möchte den relevanten Inhalt jedes Satzes kennen, der im Verhältnis zum Rest des Korpus lose als "semi-unique words" definiert ist. Ähnlich wie bei Amazon "statistisch unwahrscheinliche Phrasen", die den Charakter eines Buches (oft) durch seltsame Wortketten zu vermitteln scheinen.

Mein erster Durchgang bestand darin, eine gemeinsame Wortliste zu erstellen. Dies schlägt die einfachen wiea, the, from, etc. Offensichtlich stellt sich heraus, dass diese Liste ziemlich lang wird.

Eine Idee ist, diese Liste zu generieren: Erstellen Sie ein Histogramm der Wortfrequenzen des Korpus und hacken Sie die oberen 10% oder etwas Ähnliches ab (IEthe kommt 700 mal vor,from 600 mal, abermicropayments nur 50, was unter dem Cutoff liegt und daher relevant ist.

Ein weiterer Algorithmus, über den ich gerade von Hacker News erfahren habe, ist derTf idf, wie es aussieht, könnte es hilfreich sein.

Welche anderen Ansätze funktionieren besser als meine beiden Ideen?