Resultados da pesquisa a pedido "nltk"

3 a resposta

Classificação de documentos em categorias

Eu tenho cerca de 300 mil documentos armazenados em um banco de dados do Postgres que são marcados com categorias de tópicos (existem cerca de 150 categorias no total). Tenho outros 150 mil documentos que ainda não têm categorias. Estou tentando ...

4 a resposta

Como rotular automaticamente um cluster de palavras usando semântica?

O contexto é: eu já tenho grupos de palavras (na verdade frases) resultantes de kmeans aplicados a consultas de pesquisa na Internet e usando URLs comuns nos resultados do mecanismo de pesquisa à distância (co-ocorrência de URLs em vez ...

2 a resposta

Como calcular a distância mais curta do caminho (geodésico) entre dois adjetivos no WordNet usando o Python NLTK?

O cálculo da semelhança semântica entre dois synsets no WordNet pode ser feito facilmente com várias medidas de similaridade internas, ...

3 a resposta

Semelhança cosseno de vetores de comprimentos diferentes?

Estou tentando usar o TF-IDF [https://stackoverflow.com/questions/3113428/classifying-documents-into-categories/3114191#3114191] para classificar documentos em categorias. Eu calculei o tf_idf para alguns documentos, mas agora, quando tento ...

1 a resposta

O NLTK possui uma ferramenta para análise de dependência?

Estou criando um aplicativo de PNL e tenho usado o Stanford Parser na maior parte do meu trabalho de análise, mas gostaria de começar a usar o Python. Até agora, o NLTK parece ser a melhor aposta, mas não consigo descobrir como analisar ...

2 a resposta

obter índices do texto original de nltk word_tokenize

Estou tokenizando um texto usando nltk.word_tokenize e também gostaria de obter o índice no texto bruto original para o primeiro caractere de cada token, ou seja, import nltk x = 'hello world' tokens = nltk.word_tokenize(x) >>> ...

3 a resposta

NLTK e detecção de idioma

Como detecto em que idioma um texto está escrito usando o NLTK? Os exemplos que eu vi usarnltk.detect, mas quando o instalei no meu mac, não consigo encontrar este pacote.

6 a resposta

Reconhecimento de entidade nomeada NLTK para uma lista Python

Eu usei NLTK'sne_chunk para extrair entidades nomeadas de um texto: my_sent = "WASHINGTON -- In the wake of a string of abuses by New York police officers in the 1990s, Loretta E. Lynch, the top federal prosecutor in Brooklyn, spoke forcefully ...

1 a resposta

O mecanismo de lematização reduz o tamanho do corpus?

Caros membros da comunidade, Durante o pré-processamento dos dados, depois de dividir os dados brutos em tokens, usei o popular WordNet Lemmatizer para gerar as hastes. Estou realizando experimentos em um conjunto de dados que possui 18953 ...

6 a resposta

Gerando Ngrams (Unigrams, Bigrams etc) a partir de um grande corpus de arquivos .txt e sua Frequência

Preciso escrever um programa no NLTK que quebre um corpus (uma grande coleção de arquivos txt) em unigramas, bigrams, trigramas, quatro gramas e cinco gramas. Eu já escrevi código para inserir meus arquivos no programa. A entrada é de 300 ...