So finden Sie häufig verwendete Ausdrücke in einer großen Textmenge

Question

Dec 18, 2009, 04:52 PM

data-mining graph data-structures text-analysis

So finden Sie häufig verwendete Ausdrücke in einer großen Textmenge

Ich arbeite gerade an einem Projekt, in dem ich die häufigsten Ausdrücke in einem riesigen Textkörper heraussuchen muss. Nehmen wir zum Beispiel an, wir haben drei Sätze wie den folgenden:

Der Hund ist gesprungen über die Frau.Der Hund ist gesprungen in das Auto.Der Hund ist gesprungen Die Treppe hoch.

Aus dem obigen Beispiel möchte ich extrahieren "Der Hund sprang"da es der häufigste Ausdruck im Text ist. Zuerst dachte ich," oh lass uns einen gerichteten Graphen [mit wiederholten Knoten] verwenden ":

gerichteter Graph http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png

BEARBEITEN: Entschuldigung, ich habe einen Fehler gemacht, als ich dieses Diagramm "over", "into" und "up" gemacht habe, sollte alles wieder auf "the" verlinken.

Ich wollte zählen, wie oft ein Wort in jedem Knotenobjekt vorkam ("the" wäre 6; "dog" und "jumped", 3; etc.), aber trotz vieler anderer Probleme kam das Hauptproblem auf, als Wir fügen noch ein paar Beispiele hinzu (bitte ignorieren Sie die schlechte Grammatik :-)):

Hund sprang auf und ab.Hund sprang wie kein Hund zuvor.Hund sprang glücklich.

Wir haben jetzt ein Problem seit "Hund"würde einen neuen Wurzelknoten starten (auf der gleichen Ebene wie" the ") und wir würden uns nicht identifizieren"Hund sprang"wie jetzt die gebräuchlichste Redewendung. Also denke ich jetzt, ich könnte vielleicht ein ungerichtetes Diagramm verwenden, um die Beziehungen zwischen allen Wörtern abzubilden und schließlich die gebräuchlichen Redewendungen herauszusuchen, aber ich bin nicht sicher, wie dies auch funktionieren wird. wie Sie die wichtige Beziehung der Ordnung zwischen den Wörtern verlieren.

Hat jemand eine allgemeine Vorstellung davon, wie man häufig verwendete Ausdrücke in einem großen Textkörper identifiziert und welche Datenstruktur ich verwenden würde?

Danke, Ben