Чтение данных файла Unicode с символами спецификации в Python
Я читаю серию файлов исходного кода с использованием Python и сталкиваюсь с ошибкой спецификации Юникода. Вот'мой код:
bytes = min(32, os.path.getsize(filename))
raw = open(filename, 'rb').read(bytes)
result = chardet.detect(raw)
encoding = result['encoding']
infile = open(filename, mode, encoding=encoding)
data = infile.read()
infile.close()
print(data)
Как видите, ям обнаружение кодирования с использованиемchardet
затем считывает файл в памяти и пытается его распечатать. Оператор печати не выполняется для файлов Unicode, содержащих спецификацию, с ошибкой:
UnicodeEncodeError: 'CharMap» кодек можеткодировать символы в позиции 0-2:
отображение символов на <не определено> Я
Я угадал этопытается декодировать спецификацию, используя набор символов по умолчанию, и это 'Сбой. Как мне удалить спецификацию из строки, чтобы предотвратить это?