Resultados da pesquisa a pedido "n-gram"

1 a resposta

Criando N-Gramas com tm & RWeka - trabalha com VCorpus, mas não com Corpus

Seguindo os vários guias para criarbiGramsusando os pacotes 'tm' e 'RWeka', fiquei frustrado que apenas1-Gramasestavam sendo devolvidos notdm. Através de muitas tentativas e erros, descobri que a função adequada foi alcançada usando ' VCorpus'mas ...

1 a resposta

Matriz de termo de documento em R - tokenizer bigram não está funcionando

Estou tentando fazer duas matrizes de termo de documento para um corpus, um com unigramas e outro com bigrams. No entanto, a matriz bigram atualmente é apenas idêntica à matriz unigram, e não sei por que. O ...

1 a resposta

Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?

eu usosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramas. Exemplo: import sklearn.feature_extraction.text # ...

2 a resposta

Vetorização de ngram de palavras muito rápida em R

edit: O novo pacote text2vec é excelente e resolve esse problema (e muitos outros) muito bem. text2vec no CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec no github [https://github.com/dselivanov/text2vec] vinheta que ...

2 a resposta

Remova uni-gramas de uma lista de bi-gramas

Consegui criar 2 listas a partir de documentos de texto. A primeira é a minha lista de bi-grama: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']e uma lista de palavras de parada: stops = ['clothing','black','white']Quero ...

2 a resposta

Extração de NGram eficiente em CPU e memória com R

Eu escrevi um algoritmo que extrai NGrams (bigramas, trigramas, ... até 5 gramas) de uma lista de 50000 endereços. Meu objetivo é ter para cada endereço um vetor booleano representando se os NGrams estão presentes ou não no endereço. Portanto, ...

2 a resposta

Pacote R e tm: criar uma matriz termo-documento com um dicionário de uma ou duas palavras?

Objetivo:Eu quero criar ummatriz termo-documento usando umdicionário que possui palavras compostas oubigrams, como alguns dospalavras-chave. Pesquisa na internet:Sendo novo na mineração de texto e notm pacote emR, Fui à Web para descobrir como ...

0 a resposta

Obtendo documentos mais prováveis da consulta usando filtro fonético no solr

estou usandosolrparaverificação ortográfica / correção de consultas. Eu adicioneisolr.PhoneticFilterFactoryesolr.NGramFilterFactoryem fieldType para executarverificação ortográfica. Isto étrabalhando bemmas aqui oproblemaé que eu souobtendo ...

3 a resposta

Python NLTK: Bigrams trigrams fourgrams

Eu tenho este exemplo e quero saber como obter esse resultado. Eu tenho texto e tokenizo, então coleciono o bigram e trigram e fourgram assim import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you? i am ...

1 a resposta

Como encontrar os gramas comuns mais comuns com o BigQuery?

Quero encontrar os gramas mais comuns (par de palavras) da minha mesa. Como posso fazer isso com o BigQuery? ,