Resultados da pesquisa a pedido "n-gram"

1 a resposta

Matriz de termo de documento em R - tokenizer bigram não está funcionando

Estou tentando fazer duas matrizes de termo de documento para um corpus, um com unigramas e outro com bigrams. No entanto, a matriz bigram atualmente é apenas idêntica à matriz unigram, e não sei por que. O ...

3 a resposta

Python NLTK: Bigrams trigrams fourgrams

Eu tenho este exemplo e quero saber como obter esse resultado. Eu tenho texto e tokenizo, então coleciono o bigram e trigram e fourgram assim import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you? i am ...

4 a resposta

O módulo de pesquisa do Drupal pode procurar uma substring? (Pesquisa parcial)

O módulo de pesquisa principal do Drupal, pesquisa apenas palavras-chave, por exemplo, "sanduíche". Posso fazer a pesquisa com uma substring, por exemplo "sandw" e retornar meus resultados de sanduíche? Talvez haja um plugin que faça isso?

7 a resposta

Geração de N-grama de, uma frase

Como gerar um n-grama de uma string como: String Input="This is my car."Eu quero gerar n-grama com esta entrada: Input Ngram size = 3A saída deve ser: This is my car This is is my my car This is my is my carDê uma idéia em Java, como ...

2 a resposta

Extração de NGram eficiente em CPU e memória com R

Eu escrevi um algoritmo que extrai NGrams (bigramas, trigramas, ... até 5 gramas) de uma lista de 50000 endereços. Meu objetivo é ter para cada endereço um vetor booleano representando se os NGrams estão presentes ou não no endereço. Portanto, ...

5 a resposta

Implementação simples de similaridade N-Gram, tf-idf e Cosine em Python

Preciso comparar os documentos armazenados em um banco de dados e obter uma pontuação de similaridade entre 0 e 1. O método que preciso usar tem que ser muito simples. Implementando uma versão baunilha de n-gramas (onde é possível definir ...

2 a resposta

Remova uni-gramas de uma lista de bi-gramas

Consegui criar 2 listas a partir de documentos de texto. A primeira é a minha lista de bi-grama: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']e uma lista de palavras de parada: stops = ['clothing','black','white']Quero ...

1 a resposta

Criando N-Gramas com tm & RWeka - trabalha com VCorpus, mas não com Corpus

Seguindo os vários guias para criarbiGramsusando os pacotes 'tm' e 'RWeka', fiquei frustrado que apenas1-Gramasestavam sendo devolvidos notdm. Através de muitas tentativas e erros, descobri que a função adequada foi alcançada usando ' VCorpus'mas ...

4 a resposta

Encontrando ngrams em R e comparando ngrams em corpora

Estou começando com o pacote tm em R, então por favor, tenha paciência comigo e peço desculpas pela grande e velha parede de texto. Eu criei um corpus razoav...

2 a resposta

encontrar todas as duas frases de palavras que aparecem em mais de uma linha em um conjunto de dados