Resultados da pesquisa a pedido "n-gram"

5 a resposta

Implementação simples de similaridade N-Gram, tf-idf e Cosine em Python

Preciso comparar os documentos armazenados em um banco de dados e obter uma pontuação de similaridade entre 0 e 1. O método que preciso usar tem que ser muito simples. Implementando uma versão baunilha de n-gramas (onde é possível definir ...

1 a resposta

Como encontrar os gramas comuns mais comuns com o BigQuery?

Quero encontrar os gramas mais comuns (par de palavras) da minha mesa. Como posso fazer isso com o BigQuery? ,

3 a resposta

Python NLTK: Bigrams trigrams fourgrams

Eu tenho este exemplo e quero saber como obter esse resultado. Eu tenho texto e tokenizo, então coleciono o bigram e trigram e fourgram assim import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you? i am ...

4 a resposta

O módulo de pesquisa do Drupal pode procurar uma substring? (Pesquisa parcial)

O módulo de pesquisa principal do Drupal, pesquisa apenas palavras-chave, por exemplo, "sanduíche". Posso fazer a pesquisa com uma substring, por exemplo "sandw" e retornar meus resultados de sanduíche? Talvez haja um plugin que faça isso?

0 a resposta

Obtendo documentos mais prováveis da consulta usando filtro fonético no solr

estou usandosolrparaverificação ortográfica / correção de consultas. Eu adicioneisolr.PhoneticFilterFactoryesolr.NGramFilterFactoryem fieldType para executarverificação ortográfica. Isto étrabalhando bemmas aqui oproblemaé que eu souobtendo ...

2 a resposta

Pacote R e tm: criar uma matriz termo-documento com um dicionário de uma ou duas palavras?

Objetivo:Eu quero criar ummatriz termo-documento usando umdicionário que possui palavras compostas oubigrams, como alguns dospalavras-chave. Pesquisa na internet:Sendo novo na mineração de texto e notm pacote emR, Fui à Web para descobrir como ...

2 a resposta

Extração de NGram eficiente em CPU e memória com R

Eu escrevi um algoritmo que extrai NGrams (bigramas, trigramas, ... até 5 gramas) de uma lista de 50000 endereços. Meu objetivo é ter para cada endereço um vetor booleano representando se os NGrams estão presentes ou não no endereço. Portanto, ...

2 a resposta

Remova uni-gramas de uma lista de bi-gramas

Consegui criar 2 listas a partir de documentos de texto. A primeira é a minha lista de bi-grama: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']e uma lista de palavras de parada: stops = ['clothing','black','white']Quero ...

2 a resposta

Vetorização de ngram de palavras muito rápida em R

edit: O novo pacote text2vec é excelente e resolve esse problema (e muitos outros) muito bem. text2vec no CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec no github [https://github.com/dselivanov/text2vec] vinheta que ...

1 a resposta

Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?

eu usosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramas. Exemplo: import sklearn.feature_extraction.text # ...