R: não é possível ler arquivos de texto unicode, mesmo ao especificar a codificação
Estou usando o R 3.1.1 no Windows 7 32bits. Estou tendo muitos problemas para ler alguns arquivos de texto nos quais desejo executar análise de texto. De acordo com o Notepad ++, os arquivos são codificados com"UCS-2 Little Endian". (grepWin, uma ferramenta cujo nome diz tudo, diz que o arquivo é "Unicode".)
O problema é que não consigo ler o arquivo nem mesmo especificando essa codificação. (Os caracteres são do conjunto latino padrão espanhol -ñáó- e devem ser manuseados facilmente com o CP1252 ou algo assim.)
> Sys.getlocale()
[1] "LC_COLLATE=Spanish_Spain.1252;LC_CTYPE=Spanish_Spain.1252;LC_MONETARY=Spanish_Spain.1252;LC_NUMERIC=C;LC_TIME=Spanish_Spain.1252"
> readLines("filename.txt")
[1] "ÿþE" "" "" "" "" ...
> readLines("filename.txt",encoding="UTF-8")
[1] "\xff\xfeE" "" "" "" "" ...
> readLines("filename.txt",encoding="UCS2LE")
[1] "ÿþE" "" "" "" "" "" "" ...
> readLines("filename.txt",encoding="UCS2")
[1] "ÿþE" "" "" "" "" ...
Alguma ideia?
Obrigado!!
editar: os encadeamentos "UTF-16", "UTF-16LE" e "UTF-16BE" falham da mesma forma