Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?

Question

Aug 20, 2015, 11:35 PM

Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?

eu usosklearn.feature_extraction.text.CountVectorizer para calcular n-gramas. Exemplo:

import sklearn.feature_extraction.text # FYI http://scikit-learn.org/stable/install.html
ngram_size = 4
string = ["I really like python, it's pretty awesome."]
vect = sklearn.feature_extraction.text.CountVectorizer(ngram_range=(ngram_size,ngram_size))
vect.fit(string)
print('{1}-grams: {0}'.format(vect.get_feature_names(), ngram_size))

saídas:

4-grams: [u'like python it pretty', u'python it pretty awesome', u'really like python it']

A pontuação é removida: como incluí-los como tokens separados?

questionAnswers(1)

Perguntas populares

0 a resposta

Redimensionamento de imagem proporcional

0 a resposta

Práticas recomendadas multithreading: restringindo tarefas newFixedThreadPool

0 a resposta

Como enviar e-mails no Outlook em nome de um Delegado?

0 a resposta

Mangusto, consulta de classificação por campo preenchido

0 a resposta

Como impedir que aplicativos de console C # fechar automaticamente? [duplicado]

Você é muito ativo! É ótimo!

Como usar o CountVectorizerand () do sklearn para obter ngrams que incluem qualquer pontuação como tokens separados?

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares