Python nltk.sent_tokenize ошибка ascii кодек не может декодировать
Я мог бы успешно прочитать текст в переменную, но при попытке токенизации текстов я получаю эту странную ошибку:
sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)
Я знаю, что причиной ошибки является какая-то специальная строка / символ, которую токенизатор не может прочитать / декодировать, но как это обойти? Спасибо