Liste der Tools zur Verarbeitung natürlicher Sprache im Hinblick auf die Stimmungsanalyse - Welche empfehlen Sie? [Geschlossen]

Question

Sep 06, 2012, 02:05 PM

Liste der Tools zur Verarbeitung natürlicher Sprache im Hinblick auf die Stimmungsanalyse - Welche empfehlen Sie? [Geschlossen]

erstmal entschuldigung für mein nicht so perfektes englisch ... ich komme aus deutschland;)

Für ein Forschungsprojekt von mir (Bachelorarbeit) muss ich also die Stimmung von Tweets über bestimmte Unternehmen und Marken analysieren. Zu diesem Zweck muss ich mein eigenes Programm schreiben / einen modifizierten Open Source Code verwenden (keine APIs - ich muss verstehen, was passiert).

Nachstehend finden Sie eine Liste einiger gefundener NLP-Anwendungen. Meine Frage ist nun welche und welchen Ansatz würden Sie empfehlen? Und welche braucht man nicht lange Nächte um den Code anzupassen?

Zum Beispiel: Wenn ich Twitter für den Musik-Player> iPod <anzeige und jemand schreibt: "Es ist ein schrecklicher Tag, aber mein iPod macht mich glücklich" oder noch schwerer: "Es ist ein schrecklicher Tag, aber mein iPod macht es zumindest wieder gut "

Welche Software ist intelligent genug, um zu verstehen, dass der Fokus auf dem iPod liegt und nicht auf dem Wetter?

Auch welche Software ist skalierbar / ressourceneffizient (ich möchte mehrere Tweets analysieren und nicht Tausende von Dollar ausgeben)?

Maschinelles Lernen und Data Mining

Weka - ist eine Sammlung von Algorithmen zum maschinellen Lernen für das Data Mining. Es ist eines der beliebtesten Frameworks für die Textklassifizierung. Es enthält Implementierungen einer Vielzahl von Algorithmen, einschließlich Naive Bayes und Support Vector Machines (SVM, aufgeführt unter SMO). [Hinweis: Andere häufig verwendete Nicht-Java-SVM-Implementierungen sind SVM-Light, LibSVM und SVMTorch]. Ein verwandtes Projekt ist Kea (Keyphrase Extraction Algorithm), ein Algorithmus zum Extrahieren von Keyphrasen aus Textdokumenten.

Apache Lucene Mahout - Ein Inkubator-Projekt zur Erstellung hochskalierbarer verteilter Implementierungen gängiger Algorithmen für maschinelles Lernen auf der Grundlage des Hadoop-Frameworks zur Kartenreduzierung.

NLP-Tools

LingPipe - (technisch nicht 'Open-Source', siehe unten) Alias-I's Lingpipe ist eine Suite von Java-Tools für die sprachliche Verarbeitung von Text, einschließlich Entitätsextraktion, Sprachkennzeichnung (Pos), Clustering, Klassifizierung, etc ... Es ist eines der ausgereifteste und am weitesten verbreitete Open-Source-NLP-Toolkits in der Industrie. Es ist bekannt für seine Geschwindigkeit, Stabilität und Skalierbarkeit. Eines der besten Features ist die umfangreiche Sammlung gut geschriebener Tutorials, die Ihnen den Einstieg erleichtern. Sie haben eine Liste von Links zum Wettbewerb, sowohl akademische als auch industrielle Tools. Schauen Sie sich unbedingt ihren Blog an. LingPipe wird unter einer lizenzfreien kommerziellen Lizenz veröffentlicht, die den Quellcode enthält, es ist jedoch technisch gesehen kein Open-Source-Programm.

OpenNLP - Hostet eine Vielzahl von Java-basierten NLP-Tools, die die Satzerkennung, die Tokenisierung, die Erkennung von Wortbestandteilen, das Chunking und Parsing, die Erkennung von benannten Entitäten und die Co-Referenz-Analyse mithilfe des Maxent-Pakets für maschinelles Lernen durchführen.

Stanford Parser und POS-Tagger (Part-of-Speech) - Java-Pakete für Satzanalyse und Teil der Spracherkennung der Stanford NLP-Gruppe. Es enthält Implementierungen von probabilistischen Parsern in natürlicher Sprache, sowohl hochoptimierte PCFG- als auch lexikalisierte Abhängigkeitsparser und einen lexikalisierten PCFG-Parser. Es hat eine vollständige GNU GPL-Lizenz.

OpenFST - Ein Paket zum Manipulieren gewichteter Automaten mit endlichen Zuständen. Diese werden oft verwendet, um ein probablistisches Modell darzustellen. Sie dienen zum Modellieren von Text für die Spracherkennung, die OCR-Fehlerkorrektur, die maschinelle Übersetzung und eine Vielzahl anderer Aufgaben. Die Bibliothek wurde von Mitwirkenden von Google Research und NYU entwickelt. Es ist eine C ++ - Bibliothek, die schnell und skalierbar sein soll.

NTLK - Das Toolkit für natürliche Sprachen ist ein Tool zum Lehren und Erforschen von Klassifizierung, Clustering, Sprachkennzeichnung und Parsen und vielem mehr. Es enthält eine Reihe von Tutorials und Datensätzen zum Experimentieren. Es wurde von Steven Bird von der University of Melbourne geschrieben.

Meinungsfinder - Ein System, das eine Subjektivitätsanalyse durchführt und automatisch erkennt, wann Meinungen, Meinungen, Spekulationen und andere private Zustände im Text vorhanden sind. Im Besonderen zielt OpinionFinder darauf ab, subjektive Sätze zu identifizieren und verschiedene Aspekte der Subjektivität in diesen Sätzen zu kennzeichnen, einschließlich der Quelle (Inhaber) der Subjektivität und der Wörter, die in Sätzen enthalten sind, die positive oder negative Gefühle ausdrücken.

Tawlk / osae - Eine Python-Bibliothek zur Klassifizierung von Stimmungen in sozialen Texten. Das Endziel ist eine einfache Bibliothek, die "einfach funktioniert". Es sollte eine leichte Eintrittsbarriere haben und sorgfältig dokumentiert sein. Wir haben die beste Genauigkeit erzielt, indem wir Stoppwörter mit Tweets gefiltert haben, die auf negwords.txt und poswords.txt gesammelt wurden

TOR - GATE ist über 15 Jahre alt und wird für alle Arten von Rechenaufgaben mit Bezug zur menschlichen Sprache aktiv eingesetzt. GATE zeichnet sich durch eine Textanalyse in allen Formen und Größen aus. Von großen Unternehmen bis hin zu kleinen Start-ups, von millionenschweren Forschungskonsortien bis hin zu Bachelor-Projekten ist unsere Benutzergemeinschaft die größte und vielfältigste aller Systeme dieser Art und auf alle Kontinente verteilt1.

textir - Eine Reihe von Tools für das Text- und Sentiment-Mining. Dazu gehören die Funktion "mnlm" für die spärliche multinomiale logistische Regression, "pls", eine kurze Routine für kleinste Fehlerquadrate und die Funktion "topics" für die effiziente Schätzung und Dimensionsauswahl in latenten Themenmodellen.

NLP-Toolsuite - Das JULIE Lab bietet hier eine umfassende NLP-Toolsuite für die Zwecke der semantischen Suche, der Informationsextraktion und des Text-Mining. Der größte Teil unserer ständig wachsenden Tool-Suite basiert auf Methoden des maschinellen Lernens und ist daher domänen- und sprachunabhängig.

...

Nebenbei bemerkt: Würden Sie das Twitter-Streaming oder die get-API empfehlen?

Für mich bin ich ein Fan von Python und Java;)

Vielen dank für Deine Hilfe!!!