Lista de herramientas de procesamiento de lenguaje natural en lo que respecta al análisis de sentimientos: ¿cuál de ellas recomienda [cerrado]?

Primero, lo siento por mi inglés no tan perfecto ... Soy de Alemania;)

Entonces, para un proyecto de investigación mío (tesis de licenciatura) necesito analizar el sentimiento de los tweets sobre ciertas compañías y marcas. Para este propósito, tendré que crear un script para mi propio programa / usar algún tipo de código fuente abierto modificado (sin APIs; necesito entender lo que está sucediendo).

A continuación encontrará una lista de algunas de las aplicaciones de PNL que encontré. Mi pregunta ahora es cuál y qué enfoque recomendaría? ¿Y cuál no requiere largas noches ajustando el código?

Por ejemplo: cuando selecciono Twitter para el reproductor de música> iPod <y alguien escribe: "Es un día terrible, pero al menos mi iPod me hace feliz" o incluso más difícil: "Es un día terrible, pero al menos mi iPod lo compensa "

¿Qué software es lo suficientemente inteligente como para entender que el enfoque está en el iPod y no en el clima?

Además, ¿qué software es escalable / eficiente en recursos (quiero analizar varios tweets y no quiero gastar miles de dólares)?

Aprendizaje automático y minería de datos

Weka - es una colección de algoritmos de aprendizaje automático para la minería de datos. Es uno de los marcos de clasificación de texto más populares. Contiene implementaciones de una amplia variedad de algoritmos, incluidos Naive Bayes y Support Vector Machines (SVM, enumerados en SMO) [Nota: Otras implementaciones de SVM que no son de uso común son SVM-Light, LibSVM y SVMTorch]. Un proyecto relacionado es Kea (Keyphrase Extraction Algorithm), un algoritmo para extraer frases clave de documentos de texto.

Apache Lucene Mahout - Un proyecto de incubadora para crear implementaciones distribuidas altamente escalables de algoritmos comunes de aprendizaje automático sobre el marco de reducción de mapas de Hadoop.

Herramientas de PNL

LingPipe - (No es técnicamente de código abierto, ver más abajo) Lingpipe de Alias-I es un conjunto de herramientas Java para el procesamiento lingüístico de texto que incluye extracción de entidades, etiquetado de voz (pos), agrupación, clasificación, etc. Es una de las Los kits de herramientas de PNL de código abierto más maduros y más utilizados en la industria. Es conocido por su velocidad, estabilidad y escalabilidad. Una de sus mejores características es la extensa colección de tutoriales bien escritos para ayudarlo a comenzar. Disponen de una lista de enlaces a concurso, tanto de herramientas académicas como industriales. Asegúrese de revisar su blog. LingPipe se lanza bajo una licencia comercial libre de regalías que incluye el código fuente, pero técnicamente no es de "código abierto".

OpenNLP - aloja una variedad de herramientas de PNL basadas en java que realizan detección de oraciones, tokenización, etiquetado de partes de voz, fragmentación y análisis, detección de entidades nombradas y análisis de referencia conjunta utilizando el paquete de aprendizaje automático de Maxent.

Marcador Stanford Parser y Part-of-Speech (POS) - Paquetes de Java para el análisis de oraciones y parte del etiquetado de voz del grupo de PNL de Stanford. Tiene implementaciones de analizadores de lenguaje natural probabilísticos, tanto de PCFG altamente optimizados como de analizadores de dependencia lexicalizados, y un analizador de PCFG lexicalizado. Tiene una licencia GNU GPL completa.

OpenFST - Un paquete para manipular autómatas finitos ponderados. Estos se utilizan a menudo para representar un modelo probabilístico. Se utilizan para modelar texto para el reconocimiento de voz, la corrección de errores de OCR, la traducción automática y una variedad de otras tareas. La biblioteca fue desarrollada por colaboradores de Google Research y NYU. Es una biblioteca de C ++ diseñada para ser rápida y escalable.

NTLK - El kit de herramientas de lenguaje natural es una herramienta para enseñar e investigar clasificación, agrupamiento, etiquetado y análisis de voz, y más. Contiene un conjunto de tutoriales y conjuntos de datos para la experimentación. Está escrito por Steven Bird, de la Universidad de Melbourne.

Buscador de opiniones - Un sistema que realiza análisis de subjetividad, identificando automáticamente cuando las opiniones, sentimientos, especulaciones y otros estados privados están presentes en el texto. Específicamente, OpinionFinder tiene como objetivo identificar oraciones subjetivas y marcar diversos aspectos de la subjetividad en estas oraciones, incluida la fuente (titular) de la subjetividad y las palabras que se incluyen en frases que expresan sentimientos positivos o negativos.

Tawlk / osae - Una biblioteca de python para la clasificación de sentimientos en texto social. El objetivo final es tener una biblioteca simple que "simplemente funciona". Debe tener una barrera de entrada fácil y estar bien documentado. Hemos logrado la mejor precisión utilizando el filtrado de stopwords con los tweets recopilados en negwords.txt y poswords.txt

PORTÓN - GATE tiene más de 15 años y está en uso activo para todos los tipos de tareas computacionales que involucran lenguaje humano. GATE sobresale en el análisis de texto de todas las formas y tamaños. Desde grandes corporaciones hasta pequeñas empresas, desde varios millones de consorcios de investigación hasta proyectos de pregrado, nuestra comunidad de usuarios es la más grande y diversa de todos los sistemas de este tipo, y se extiende por todos menos uno de los continentes1.

texto - Un conjunto de herramientas para la minería de textos y sentimientos. Esto incluye la función "mnlm", para regresión logística multinomial dispersa, "pls", una rutina concisa de mínimos cuadrados parciales, y la función de "temas", para la estimación eficiente y la selección de dimensiones en modelos de temas latentes.

NLP Toolsuite: el laboratorio JULIE ofrece un conjunto completo de herramientas de PNL para fines de aplicación de búsqueda semántica, extracción de información y extracción de texto. La mayor parte de nuestro conjunto de herramientas en continua expansión se basa en métodos de aprendizaje automático y, por lo tanto, es independiente del dominio y del idioma.

...

En una nota al margen: ¿Recomendaría la transmisión de Twitter o la API de obtención?

En cuanto a mí, soy un fan de python y java;)

¡¡¡Muchas gracias por tu ayuda!!!

Respuestas a la pregunta(1)

Su respuesta a la pregunta