Resultados da pesquisa a pedido "n-gram"
Criando N-Gramas com tm & RWeka - trabalha com VCorpus, mas não com Corpus
Seguindo os vários guias para criarbiGramsusando os pacotes 'tm' e 'RWeka', fiquei frustrado que apenas1-Gramasestavam sendo devolvidos notdm. Através de muitas tentativas e erros, descobri que a função adequada foi alcançada usando ' VCorpus'mas ...
Matriz de termo de documento em R - tokenizer bigram não está funcionando
Estou tentando fazer duas matrizes de termo de documento para um corpus, um com unigramas e outro com bigrams. No entanto, a matriz bigram atualmente é apenas idêntica à matriz unigram, e não sei por que. O ...
Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?
eu usosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramas. Exemplo: import sklearn.feature_extraction.text # ...
Vetorização de ngram de palavras muito rápida em R
edit: O novo pacote text2vec é excelente e resolve esse problema (e muitos outros) muito bem. text2vec no CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec no github [https://github.com/dselivanov/text2vec] vinheta que ...
Remova uni-gramas de uma lista de bi-gramas
Consegui criar 2 listas a partir de documentos de texto. A primeira é a minha lista de bi-grama: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']e uma lista de palavras de parada: stops = ['clothing','black','white']Quero ...
Extração de NGram eficiente em CPU e memória com R
Eu escrevi um algoritmo que extrai NGrams (bigramas, trigramas, ... até 5 gramas) de uma lista de 50000 endereços. Meu objetivo é ter para cada endereço um vetor booleano representando se os NGrams estão presentes ou não no endereço. Portanto, ...
Pacote R e tm: criar uma matriz termo-documento com um dicionário de uma ou duas palavras?
Objetivo:Eu quero criar ummatriz termo-documento usando umdicionário que possui palavras compostas oubigrams, como alguns dospalavras-chave. Pesquisa na internet:Sendo novo na mineração de texto e notm pacote emR, Fui à Web para descobrir como ...
Obtendo documentos mais prováveis da consulta usando filtro fonético no solr
estou usandosolrparaverificação ortográfica / correção de consultas. Eu adicioneisolr.PhoneticFilterFactoryesolr.NGramFilterFactoryem fieldType para executarverificação ortográfica. Isto étrabalhando bemmas aqui oproblemaé que eu souobtendo ...
Python NLTK: Bigrams trigrams fourgrams
Eu tenho este exemplo e quero saber como obter esse resultado. Eu tenho texto e tokenizo, então coleciono o bigram e trigram e fourgram assim import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you? i am ...
Como encontrar os gramas comuns mais comuns com o BigQuery?
Quero encontrar os gramas mais comuns (par de palavras) da minha mesa. Como posso fazer isso com o BigQuery? ,