R: não é possível ler arquivos de texto unicode, mesmo ao especificar a codificação

Question

Oct 10, 2014, 08:34 PM

R: não é possível ler arquivos de texto unicode, mesmo ao especificar a codificação

Estou usando o R 3.1.1 no Windows 7 32bits. Estou tendo muitos problemas para ler alguns arquivos de texto nos quais desejo executar análise de texto. De acordo com o Notepad ++, os arquivos são codificados com"UCS-2 Little Endian". (grepWin, uma ferramenta cujo nome diz tudo, diz que o arquivo é "Unicode".)

O problema é que não consigo ler o arquivo nem mesmo especificando essa codificação. (Os caracteres são do conjunto latino padrão espanhol -ñáó- e devem ser manuseados facilmente com o CP1252 ou algo assim.)

> Sys.getlocale()
[1] "LC_COLLATE=Spanish_Spain.1252;LC_CTYPE=Spanish_Spain.1252;LC_MONETARY=Spanish_Spain.1252;LC_NUMERIC=C;LC_TIME=Spanish_Spain.1252"
> readLines("filename.txt")
 [1] "ÿþE" ""    ""    ""    ""   ...
> readLines("filename.txt",encoding="UTF-8")
 [1] "\xff\xfeE" ""          ""          ""          ""    ...
> readLines("filename.txt",encoding="UCS2LE")
 [1] "ÿþE" ""    ""    ""    ""    ""    ""     ...
> readLines("filename.txt",encoding="UCS2")
 [1] "ÿþE" ""    ""    ""    ""    ...

Alguma ideia?

Obrigado!!

editar: os encadeamentos "UTF-16", "UTF-16LE" e "UTF-16BE" falham da mesma forma