Módulo abrangente de substituição de caracteres em python para não-unicode e não-ascii para HTML

Question

Oct 11, 2012, 01:33 AM

python character-encoding unicode string-decoding

Módulo abrangente de substituição de caracteres em python para não-unicode e não-ascii para HTML

Existe um módulo abrangente de substituição de caracteres para python que encontre todos os caracteres não-ascii ou não-unicode em uma string e os substitua por equi- res ascii ou unicode? Este conforto com o argumento "ignorar" durante a codificação ou decodificação é insano, mas da mesma forma é um '?' em todo lugar que um personagem não traduzido era.

Eu estou procurando por um módulo que encontra personagens incômodos e os conforma com qualquer padrão solicitado. Eu percebo que a quantidade de alfabetos e codificações existentes torna isso um pouco impossível, mas com certeza alguém tomou uma facada nisso? Mesmo uma solução rudimentar seria melhor que o status quo.

A simplificação para transferência de dados que isso significaria é enorme.