aracteres de controle de nova linha em conjuntos de caracteres de vários byt

Question

Apr 07, 2009, 07:33 AM

aracteres de controle de nova linha em conjuntos de caracteres de vários byt

Tenho algum código Perl que traduz novas linhas e feeds de linha para um formulário normalizado. O texto de entrada é japonês, para que haja caracteres de vários bytes.

Ainda é possível fazer essa transformação de byte a byte (o que eu acho que faz atualmente) ou preciso detectar o conjunto de caracteres e ativar o suporte a Unicode? Em outras palavras, as codificações populares (Shift-JIS, EUC-JP, UTF-8, ISO-2022-JP) estão usando bytes como parte de seu conjunto de caracteres que podem ser confundidos com caracteres de controle ASCII?

Eu preciso apenas de CR e LF para funciona

Atualizar ISO-2022-JP adicionado. E esse é o que parece mais problemático com suas sequências de escape divertidas ...