Resultados de la búsqueda a petición "n-gram"

1 la respuesta

Crear N-Grams con tm y RWeka: funciona con VCorpus pero no con Corpus

Seguir las muchas guías para crearbiGramsusando los paquetes 'tm' y 'RWeka', me frustraba que solo1-gramosestaban siendo devueltos en eltdm. A través de muchas pruebas y errores descubrí que la función adecuada se logró usando 'VCorpus'pero no ...

1 la respuesta

Matriz de término de documento en R: el tokenizador bigram no funciona

Estoy tratando de hacer 2 matrices de términos de documentos para un corpus, una con unigramas y otra con bigramas. Sin embargo, la matriz bigram es actualmente idéntica a la matriz unigram, y no estoy seguro de por qué. El ...

1 la respuesta

¿Cómo usar el CountVectorizerand () de sklearn para obtener ngrams que incluyen cualquier puntuación como tokens separados?

yo suelosklearn.feature_extraction.text.CountVectorizer [http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html] para calcular n-gramos. Ejemplo: import sklearn.feature_extraction.text # ...

2 la respuesta

Vectorización de ngram de palabra realmente rápida en R

editar: El nuevo paquete text2vec es excelente y resuelve este problema (y muchos otros) realmente bien. text2vec en CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec en github [https://github.com/dselivanov/text2vec] ...

2 la respuesta

Eliminar uni-gramos de una lista de bi-gramos

He logrado crear 2 listas de documentos de texto. El primero es mi lista de bi-gramos: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']y una lista de palabras de parada: stops = ['clothing','black','white']Quiero eliminar ...

2 la respuesta

Extracción NGram eficiente de CPU y memoria con R

Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...

0 la respuesta

Obtener los documentos más probables de la consulta usando el filtro fonético en solr

estoy usandosolrparacorrector ortográfico / corrección de consultas. Yo he añadidosolr.PhoneticFilterFactoryysolr.NGramFilterFactoryen fieldType para realizarcorrección ortográfica. Estáfuncionando bienpero aqui elproblemaes que soyobtener número ...

3 la respuesta

Python NLTK: Bigrams trigrams fourgrams

Tengo este ejemplo y quiero saber cómo obtener este resultado. Tengo texto y lo tokenizo, luego recojo el bigram y el trigram y fourgram así import nltk from nltk import word_tokenize from nltk.util import ngrams text = "Hi How are you? i am ...

1 la respuesta

¿Cómo extraer ngram de caracteres de las oraciones? - pitón

El seguimientoword2ngrams La función extrae 3 gramos de caracteres de una palabra: >>> x = 'foobar' >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] ['foo', 'oob', 'oba', 'bar']Esta publicación muestra la extracción de ngrams de caracteres ...

4 la respuesta

Encontrar ngrams en R y comparar ngrams a través de cuerpos

Estoy empezando con el paquete tm en R, así que, por favor, tengan paciencia conmigo y pido disculpas por la gran pared de texto. He creado un corpus bastant...