Resultados da pesquisa a pedido "nlp"
O que é o formato de dados CoNLL?
Eu sou novo na mineração de texto. Estou usando um jar de código aberto (Mate Parser), que me fornece um formato CoNLL 2009 após a análise de dependência. Eu quero usar os resultados de análise de dependência para extração de informações. Mas sou ...
Usando uma variável declarada fora da string Query dentro de uma Consulta SPARQL - Usando JSP e Java Servlet
Eu tenho 2 páginas jsp. Na página de índice, estou selecionando um valor suspenso e passando o valor selecionado como parâmetro de url para a ...
Simplificando o conjunto de tags POS franceses com o NLTK
Como simplificar a parte das tags de fala retornadas pelo tagger de POS da Stanford em francês? É bastante fácil ler uma frase em inglês no NLTK, encontrar a parte do discurso de cada palavra e usar map_tag () para simplificar o conjunto de ...
Como usar o Gensim doc2vec com vetores de palavras pré-treinados?
Recentemente, me deparei com a adição do doc2vec ao Gensim. Como posso usar vetores de palavras pré-treinados (por exemplo, encontrados no site original do word2vec) com o doc2vec? Ou o doc2vec está obtendo os vetores de palavras das mesmas ...
Dividir documento chinês em frases [fechado]
Eu tenho que dividir o texto em chinês em várias frases. Eu tentei o Stanford DocumentPreProcessor. Funcionou muito bem para o inglês, mas não para o chinês. Por favor, deixe-me saber quaisquer divisores de frases bons para chinês, ...
Compreendendo min_df e max_df no scikit CountVectorizer
Eu tenho cinco arquivos de texto inseridos em um CountVectorizer. Ao especificar min_df e max_df para a instância CountVectorizer, o que significa exatamente a frequência mínima / máxima do documento? É a frequência de uma palavra em seu arquivo ...
Mineração de texto com PHP [fechado]
Estou fazendo um projeto para uma aula da faculdade que estou cursando. Estou usando o PHP para criar um aplicativo Web simples que classifique os tweets como "positivo" (ou feliz) e "negativo" (ou triste) com base em um conjunto de dicionários. ...
word2vec: amostragem negativa (em termos leigos)?
Estou lendo o artigo abaixo e tenho alguns problemas, entendendo o conceito de amostragem negativa. http://arxiv.org/pdf/1402.3722v1.pdf [http://arxiv.org/pdf/1402.3722v1.pdf] Alguém pode ajudar por favor?
Determinando se uma palavra é um substantivo ou não
Dada uma palavra de entrada, quero determinar se é um substantivo ou não (em caso de ambiguidade, por exemplocook pode ser um substantivo ou um verbo, a palavra deve ser identificada como um substantivo). Na verdade, eu uso o etiquetador POS do ...
Regex Python: tokenizando contrações em inglês
Estou tentando analisar seqüências de caracteres de forma a separar todos os componentes de palavras, mesmo aqueles que foram contratados. Por exemplo, a tokenização de "should should" seria ["should", "n't"]. O módulo nltk não parece estar à ...