Lista de ferramentas de processamento de linguagem natural no que diz respeito à análise de sentimentos - Qual delas você recomenda [fechado]

primeiro desculpe pelo meu inglês não tão perfeito ... eu sou da Alemanha;)

Então, para um projeto de pesquisa meu (tese de bacharelado) eu preciso analisar o sentimento de tweets sobre certas empresas e marcas. Para este propósito, eu precisarei fazer o script do meu próprio programa / usar algum tipo de código aberto de código aberto (sem APIs - eu preciso entender o que está acontecendo).

Abaixo você encontrará uma lista de alguns dos Aplicativos NLP que encontrei. Minha pergunta agora é qual e qual abordagem você recomendaria? E qual não requer longas noites ajustando o código?

Por exemplo: Quando eu clico no Twitter para o player de música> iPod <e alguém escreve: "É um dia terrível, mas pelo menos meu iPod me deixa feliz" ou ainda mais difícil: "É um dia terrível, mas pelo menos meu iPod compensa isso "

Qual software é inteligente o suficiente para entender que o foco está no iPod e não no clima?

Além disso, qual software é dimensionável / economiza recursos (quero analisar vários tweets e não quero gastar milhares de dólares)?

Aprendizado de máquina e mineração de dados

Weka - é uma coleção de algoritmos de aprendizado de máquina para mineração de dados. É uma das estruturas de classificação de texto mais populares. Ele contém implementações de uma ampla variedade de algoritmos, incluindo Naive Bayes e Support Vector Machines (SVM, listados em SMO) [Nota: Outras implementações comuns de SVM que não são Java são SVM-Light, LibSVM e SVMTorch]. Um projeto relacionado é o Kea (Keyphrase Extraction Algorithm), um algoritmo para extração de frases-chave de documentos de texto.

Apache Lucene Mahout - Um projeto de incubadora para criar implementações distribuídas altamente escaláveis ​​de algoritmos comuns de aprendizado de máquina no topo da estrutura de redução de mapa do Hadoop.

Ferramentas de PNL

LingPipe - (tecnicamente não é open-source, veja abaixo) O Alias-I's Lingpipe é um conjunto de ferramentas Java para processamento lingüístico de texto, incluindo extração de entidade, marcação de voz (pos), clustering, classificação, etc ... É um dos mais maduro e amplamente utilizado toolkits de PNL de código aberto na indústria. É conhecido por sua velocidade, estabilidade e escalabilidade. Uma de suas melhores características é a extensa coleção de tutoriais bem escritos para ajudá-lo a começar. Eles têm uma lista de links para a concorrência, tanto acadêmicas e ferramentas industriais. Não deixe de conferir o blog deles. O LingPipe é lançado sob uma licença comercial sem royalties que inclui o código-fonte, mas não é tecnicamente de código aberto.

OpenNLP - hospeda uma variedade de ferramentas de PNL baseadas em java que executam detecção de sentenças, tokenização, marcação de partes de fala, chunking e parsing, detecção de entidades nomeadas e análise de co-referência usando o pacote de aprendizado de máquina Maxent.

Stanford Parser e Partger of Speech (POS) Tagger - Pacotes Java para análise de sentença e parte da marcação de voz do grupo de PNL de Stanford. Ele tem implementações de analisadores probabilísticos de linguagem natural, tanto PCFG altamente otimizado e analisadores de dependência lexicalizados, quanto um analisador PCFG lexicalizado. Tem uma licença GNU GPL completa.

OpenFST - Um pacote para manipular autômatos de estados finitos ponderados. Estes são frequentemente usados ​​para representar um modelo probabilístico. Eles são usados ​​para modelar texto para reconhecimento de fala, correção de erros de OCR, tradução automática e várias outras tarefas. A biblioteca foi desenvolvida por colaboradores do Google Research e da NYU. É uma biblioteca C ++ destinada a ser rápida e escalável.

NTLK - O kit de ferramentas de linguagem natural é uma ferramenta para ensinar e pesquisar classificação, agrupamento, marcação e análise de voz e muito mais. Ele contém um conjunto de tutoriais e conjuntos de dados para experimentação. É escrito por Steven Bird, da Universidade de Melbourne.

Localizador de Opinião - Um sistema que realiza análise de subjetividade, identificando automaticamente quando as opiniões, sentimentos, especulações e outros estados privados estão presentes no texto. Especificamente, o OpinionFinder visa identificar sentenças subjetivas e marcar vários aspectos da subjetividade nessas frases, incluindo a fonte (detentora) da subjetividade e palavras que são incluídas em frases que expressam sentimentos positivos ou negativos.

Tawlk / osae - Uma biblioteca python para classificação de sentimentos em texto social. O objetivo final é ter uma biblioteca simples que "simplesmente funcione". Deve ter uma barreira fácil à entrada e ser documentado completamente. Conseguimos a melhor precisão usando as palavras irrelevantes filtradas com tweets coletados em negwords.txt e poswords.txt

PORTÃO - GATE tem mais de 15 anos e está em uso ativo para todos os tipos de tarefas computacionais envolvendo linguagem humana. GATE se destaca na análise de texto de todas as formas e tamanhos. De grandes corporações a pequenas startups, de milhões de milhões de consórcios de pesquisa a projetos de graduação, nossa comunidade de usuários é o maior e mais diversificado de todos os sistemas desse tipo e está espalhada por todos os continentes, com exceção de um deles1.

textir - Um conjunto de ferramentas para mineração de texto e sentimento. Isso inclui a função "mnlm", para regressão logística multinomial esparsa, "pls", uma rotina de mínimos quadrados parciais concisos e a função de "tópicos", para estimativa eficiente e seleção de dimensões em modelos de tópicos latentes.

NLP Toolsuite - O Laboratório JULIE aqui oferece um conjunto abrangente de ferramentas de PNL para fins de pesquisa semântica, extração de informações e mineração de texto. A maioria de nosso conjunto de ferramentas em expansão contínua é baseada em métodos de aprendizado de máquina e, portanto, é independente de domínio e de idioma.

...

Em uma nota lateral: Você recomendaria o streaming do Twitter ou a API get?

Quanto a mim, sou fã de python e java;)

Muito obrigado por sua ajuda!!!

questionAnswers(1)

yourAnswerToTheQuestion