Lista de ferramentas de processamento de linguagem natural no que diz respeito à análise de sentimentos - Qual delas você recomenda [fechado]

Question

Sep 06, 2012, 02:05 PM

Lista de ferramentas de processamento de linguagem natural no que diz respeito à análise de sentimentos - Qual delas você recomenda [fechado]

primeiro desculpe pelo meu inglês não tão perfeito ... eu sou da Alemanha;)

Então, para um projeto de pesquisa meu (tese de bacharelado) eu preciso analisar o sentimento de tweets sobre certas empresas e marcas. Para este propósito, eu precisarei fazer o script do meu próprio programa / usar algum tipo de código aberto de código aberto (sem APIs - eu preciso entender o que está acontecendo).

Abaixo você encontrará uma lista de alguns dos Aplicativos NLP que encontrei. Minha pergunta agora é qual e qual abordagem você recomendaria? E qual não requer longas noites ajustando o código?

Por exemplo: Quando eu clico no Twitter para o player de música> iPod <e alguém escreve: "É um dia terrível, mas pelo menos meu iPod me deixa feliz" ou ainda mais difícil: "É um dia terrível, mas pelo menos meu iPod compensa isso "

Qual software é inteligente o suficiente para entender que o foco está no iPod e não no clima?

Além disso, qual software é dimensionável / economiza recursos (quero analisar vários tweets e não quero gastar milhares de dólares)?

Aprendizado de máquina e mineração de dados

Weka - é uma coleção de algoritmos de aprendizado de máquina para mineração de dados. É uma das estruturas de classificação de texto mais populares. Ele contém implementações de uma ampla variedade de algoritmos, incluindo Naive Bayes e Support Vector Machines (SVM, listados em SMO) [Nota: Outras implementações comuns de SVM que não são Java são SVM-Light, LibSVM e SVMTorch]. Um projeto relacionado é o Kea (Keyphrase Extraction Algorithm), um algoritmo para extração de frases-chave de documentos de texto.

Apache Lucene Mahout - Um projeto de incubadora para criar implementações distribuídas altamente escaláveis de algoritmos comuns de aprendizado de máquina no topo da estrutura de redução de mapa do Hadoop.

Ferramentas de PNL

LingPipe - (tecnicamente não é open-source, veja abaixo) O Alias-I's Lingpipe é um conjunto de ferramentas Java para processamento lingüístico de texto, incluindo extração de entidade, marcação de voz (pos), clustering, classificação, etc ... É um dos mais maduro e amplamente utilizado toolkits de PNL de código aberto na indústria. É conhecido por sua velocidade, estabilidade e escalabilidade. Uma de suas melhores características é a extensa coleção de tutoriais bem escritos para ajudá-lo a começar. Eles têm uma lista de links para a concorrência, tanto acadêmicas e ferramentas industriais. Não deixe de conferir o blog deles. O LingPipe é lançado sob uma licença comercial sem royalties que inclui o código-fonte, mas não é tecnicamente de código aberto.

OpenNLP - hospeda uma variedade de ferramentas de PNL baseadas em java que executam detecção de sentenças, tokenização, marcação de partes de fala, chunking e parsing, detecção de entidades nomeadas e análise de co-referência usando o pacote de aprendizado de máquina Maxent.

Stanford Parser e Partger of Speech (POS) Tagger - Pacotes Java para análise de sentença e parte da marcação de voz do grupo de PNL de Stanford. Ele tem implementações de analisadores probabilísticos de linguagem natural, tanto PCFG altamente otimizado e analisadores de dependência lexicalizados, quanto um analisador PCFG lexicalizado. Tem uma licença GNU GPL completa.

OpenFST - Um pacote para manipular autômatos de estados finitos ponderados. Estes são frequentemente usados para representar um modelo probabilístico. Eles são usados para modelar texto para reconhecimento de fala, correção de erros de OCR, tradução automática e várias outras tarefas. A biblioteca foi desenvolvida por colaboradores do Google Research e da NYU. É uma biblioteca C ++ destinada a ser rápida e escalável.

NTLK - O kit de ferramentas de linguagem natural é uma ferramenta para ensinar e pesquisar classificação, agrupamento, marcação e análise de voz e muito mais. Ele contém um conjunto de tutoriais e conjuntos de dados para experimentação. É escrito por Steven Bird, da Universidade de Melbourne.

Localizador de Opinião - Um sistema que realiza análise de subjetividade, identificando automaticamente quando as opiniões, sentimentos, especulações e outros estados privados estão presentes no texto. Especificamente, o OpinionFinder visa identificar sentenças subjetivas e marcar vários aspectos da subjetividade nessas frases, incluindo a fonte (detentora) da subjetividade e palavras que são incluídas em frases que expressam sentimentos positivos ou negativos.

Tawlk / osae - Uma biblioteca python para classificação de sentimentos em texto social. O objetivo final é ter uma biblioteca simples que "simplesmente funcione". Deve ter uma barreira fácil à entrada e ser documentado completamente. Conseguimos a melhor precisão usando as palavras irrelevantes filtradas com tweets coletados em negwords.txt e poswords.txt

PORTÃO - GATE tem mais de 15 anos e está em uso ativo para todos os tipos de tarefas computacionais envolvendo linguagem humana. GATE se destaca na análise de texto de todas as formas e tamanhos. De grandes corporações a pequenas startups, de milhões de milhões de consórcios de pesquisa a projetos de graduação, nossa comunidade de usuários é o maior e mais diversificado de todos os sistemas desse tipo e está espalhada por todos os continentes, com exceção de um deles1.

textir - Um conjunto de ferramentas para mineração de texto e sentimento. Isso inclui a função "mnlm", para regressão logística multinomial esparsa, "pls", uma rotina de mínimos quadrados parciais concisos e a função de "tópicos", para estimativa eficiente e seleção de dimensões em modelos de tópicos latentes.

NLP Toolsuite - O Laboratório JULIE aqui oferece um conjunto abrangente de ferramentas de PNL para fins de pesquisa semântica, extração de informações e mineração de texto. A maioria de nosso conjunto de ferramentas em expansão contínua é baseada em métodos de aprendizado de máquina e, portanto, é independente de domínio e de idioma.

...

Em uma nota lateral: Você recomendaria o streaming do Twitter ou a API get?

Quanto a mim, sou fã de python e java;)

Muito obrigado por sua ajuda!!!