Text als UTF-8-Codierung lesen
Angenommen, ich schreibe eine Funktion, die einen Eingabestream analysiert, der Deutsch enthält. Unten ein Spielzeugbeispiel. Folgendes funktioniert auf meinem Computer (da UTF8 Standard ist):
readLines(textConnection("Zürich"))
readLines(textConnection("Z\u00FCrich")) #same thing
Allerdings möchte ich sichergehen, dass es auch wann funktioniertUTF-8
ist nicht die aktuelle Gebietsschemacodierung. Beispiel: In rApache lautet der Standardwertascii
. Daher übergebe ich den Kodierungsparameter:
readLines(textConnection("Zürich", encoding="UTF-8"))
readLines(textConnection("Z\u00FCrich", encoding="UTF-8"))
Dies führt jedoch dazu, dass die Ausgabe durcheinander gerät. Warum ist das? Wie soll ich anrufentextConnection
um sicherzustellen, dass der Stream auf jeder Plattform oder in jedem Gebietsschema richtig gelesen wird?