aracteres de controle de nova linha em conjuntos de caracteres de vários byt
Tenho algum código Perl que traduz novas linhas e feeds de linha para um formulário normalizado. O texto de entrada é japonês, para que haja caracteres de vários bytes.
Ainda é possível fazer essa transformação de byte a byte (o que eu acho que faz atualmente) ou preciso detectar o conjunto de caracteres e ativar o suporte a Unicode? Em outras palavras, as codificações populares (Shift-JIS, EUC-JP, UTF-8, ISO-2022-JP) estão usando bytes como parte de seu conjunto de caracteres que podem ser confundidos com caracteres de controle ASCII?
Eu preciso apenas de CR e LF para funciona
Atualizar ISO-2022-JP adicionado. E esse é o que parece mais problemático com suas sequências de escape divertidas ...