Python nltk.sent_tokenize ошибка ascii кодек не может декодировать

Question

Nov 30, 2014, 12:53 PM

Python nltk.sent_tokenize ошибка ascii кодек не может декодировать

Я мог бы успешно прочитать текст в переменную, но при попытке токенизации текстов я получаю эту странную ошибку:

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

Я знаю, что причиной ошибки является какая-то специальная строка / символ, которую токенизатор не может прочитать / декодировать, но как это обойти? Спасибо

Python nltk.sent_tokenize ошибка ascii кодек не может декодировать

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Python nltk.sent_tokenize ошибка ascii кодек не может декодировать

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы