R: Unicode-Textdateien können nicht gelesen werden, auch wenn die Codierung @ angegeben wurd
Ich verwende R 3.1.1 unter Windows 7 mit 32 Bit. Ich habe viele Probleme beim Lesen einiger Textdateien, für die ich eine Textanalyse durchführen möchte. Laut Notepad ++ sind die Dateien mit @ codie "UCS-2 Little Endian". (grepWin, ein Tool, dessen Name alles sagt, sagt, dass die Datei "Unicode" ist.)
Das Problem ist, dass ich die Datei nicht einmal unter Angabe dieser Kodierung lesen kann. (Die Zeichen stammen aus dem spanischen Standard-Latein-Satz -ñáó- und sollten mit CP1252 oder ähnlichem leicht zu handhaben sein.)
> Sys.getlocale()
[1] "LC_COLLATE=Spanish_Spain.1252;LC_CTYPE=Spanish_Spain.1252;LC_MONETARY=Spanish_Spain.1252;LC_NUMERIC=C;LC_TIME=Spanish_Spain.1252"
> readLines("filename.txt")
[1] "ÿþE" "" "" "" "" ...
> readLines("filename.txt",encoding="UTF-8")
[1] "\xff\xfeE" "" "" "" "" ...
> readLines("filename.txt",encoding="UCS2LE")
[1] "ÿþE" "" "" "" "" "" "" ...
> readLines("filename.txt",encoding="UCS2")
[1] "ÿþE" "" "" "" "" ...
Irgendwelche Ideen
Vielen Dank!
edit: Die Encondings "UTF-16", "UTF-16LE" und "UTF-16BE" schlagen auf ähnliche Weise fehl