Python nltk.sent_tokenize error códec ASCII no puede decodificar

Question

Nov 30, 2014, 12:53 PM

Pude leer con éxito el texto en una variable, pero al intentar simular los textos obtengo este extraño error:

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

Sé que la causa del error es alguna cadena / char especial que el tokenizador no puede leer / decodificar, pero ¿cómo evitar esto? Gracias

Respuestas a la pregunta(2)

Mantener al usuario conectado - FormsAuthentication

¿Cómo puedo servir robots.txt en un SPA usando el servidor React with Firebase?

Specs2 - Pruebas de etiquetado para ejecutar

¿Código fuente JDK / JRE con código fuente JSSE (SSL) coincidente y JDK / JRE ejecutable coincidente?

Análisis de PDF en C ++ (PoDoFo)