Error de codificación en Python con caracteres chinos

Question

Oct 07, 2010, 06:05 PM

Error de codificación en Python con caracteres chinos

Soy un principiante que tiene problemas para decodificar varias docenas de archivos CSV con números + caracteres chinos (simplificados) a UTF-8 en Python 2.7.

No conozco la codificación de los archivos de entrada, así que he probado todas las codificaciones posibles que conozco: GB18030, UTF-7, UTF-8, UTF-16 y UTF-32 (LE & BE). Además, por si acaso, GBK y GB3212, aunque estos deberían ser un subconjunto de GB18030. Todos los UTF se detienen cuando llegan a los primeros caracteres chinos. Las otras codificaciones se detienen en algún lugar de la primera línea, excepto GB18030. Pensé que esta sería la solución porque leía los primeros archivos y los decodificaba bien. Parte de mi código, leer línea por línea, es:

line = line.decode("GB18030")

Los primeros 2 archivos que intenté decodificar funcionaron bien. A mitad del tercerarchivoPython escupe

UnicodeDecodeError: 'gb18030' codec can't decode bytes in position 168-169: illegal multibyte sequence

En este archivo, hay alrededor de 5 errores de este tipo en aproximadamente un millón de líneas.

Abrí el archivo de entrada en un editor de texto y verifiqué qué caracteres daban los errores de decodificación, y los primeros tenían signos de Euro en una columna particular de los archivos CSV. Estoy bastante seguro de que estos son errores tipográficos, por lo que me gustaría eliminar los caracteres del euro. Me gustaría examinar los tipos de errores de codificación uno por uno; Me gustaría deshacerme de todos los errores en euros, pero no quiero ignorar a los demás hasta que los vea primero.

Editar: solíachardet lo que dio GB2312 como la codificación con .99 confianza para todos los archivos. Intenté usar GB2312 para decodificar, lo que dio:

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 108-109: illegal multibyte sequence

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

¿Qué comandos git realizan comprobaciones de integridad?

0 la respuesta

Iteración eficiente sobre la rebanada en Python

0 la respuesta

android user agent

0 la respuesta

Implementación del método Elbow para encontrar el número óptimo de agrupaciones para la agrupación de K-Means en R [cerrado]

0 la respuesta

C ++ int al conjunto de bytes

¡Eres muy activo! ¡Es genial!

Error de codificación en Python con caracteres chinos

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares