Resultados da pesquisa a pedido "nlp"
NLTK e detecção de idioma
Como detecto em que idioma um texto está escrito usando o NLTK? Os exemplos que eu vi usarnltk.detect, mas quando o instalei no meu mac, não consigo encontrar este pacote.
Reconhecimento de entidade nomeada NLTK para uma lista Python
Eu usei NLTK'sne_chunk para extrair entidades nomeadas de um texto: my_sent = "WASHINGTON -- In the wake of a string of abuses by New York police officers in the 1990s, Loretta E. Lynch, the top federal prosecutor in Brooklyn, spoke forcefully ...
Frequências de palavras de strings no Postgres?
É possível identificar palavras distintas e uma contagem para cada uma, a partir de campos que contêm cadeias de texto no Postgres?
Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?
eu usosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramas. Exemplo: import sklearn.feature_extraction.text # ...
Treebank PTB de CoNLL-X
Eu tenho um treebank no formato CoNLL-X e a árvore de análise binária correspondente para cada frase e quero convertê-lo em um formato PTB. Existe algum conversor ou alguém pode esclarecer o formato PTB?
Na lista de cadeias, identifique quais são os nomes humanos e quais não são
Eu tenho um vetor como o abaixo e gostaria de determinar quais elementos na lista são nomes humanos e quais não são. Encontrei o pacote humaniformat, que formata nomes, mas infelizmente não determina se uma string é de fato um nome. Também ...
Existe uma maneira de obter os dados de texto "originais" do OpenNLP?
Eu sei que essa pergunta foi feita antes - mas a resposta não foi satisfatória (no sentido de que a resposta era apenas um link). Então, minha pergunta é: existe alguma maneira de estender os modelos openNLP existentes? Eu já sei sobre a técnica ...
Biblioteca de pesquisa de cadeias difusas em Java [fechada]
Estou procurando uma biblioteca Java de alto desempenho para pesquisa de strings difusos. Existem numerosos algoritmos para encontrar cadeias semelhantes, distância de Levenshtein, Daitch-Mokotoff Soundex, n-gramas etc. Quais implementações ...
Maltparser dando erro no NLTK
Meu código é from nltk.parse import malt mp = malt.MaltParser(working_dir="/other/apps/maltparser-1.8.1",mco="engmalt.poly-1.7.mco",additional_java_args=['-Xmx1024m']) print mp.raw_parse("Hello World")E o erro é Traceback (most recent call ...
Visualizar estrutura de árvore de análise
Gostaria de exibir a análise (marcação POS) deopenNLPcomo uma visualização da estrutura da árvore. Abaixo, forneço a árvore de análise deopenNLPmas não consigo traçar como uma árvore visual comum aAnálise de ...