Text als UTF-8-Codierung lesen

Question

Jul 07, 2013, 04:05 PM

Text als UTF-8-Codierung lesen

Angenommen, ich schreibe eine Funktion, die einen Eingabestream analysiert, der Deutsch enthält. Unten ein Spielzeugbeispiel. Folgendes funktioniert auf meinem Computer (da UTF8 Standard ist):

readLines(textConnection("Zürich"))
readLines(textConnection("Z\u00FCrich")) #same thing

Allerdings möchte ich sichergehen, dass es auch wann funktioniertUTF-8 ist nicht die aktuelle Gebietsschemacodierung. Beispiel: In rApache lautet der Standardwertascii. Daher übergebe ich den Kodierungsparameter:

readLines(textConnection("Zürich", encoding="UTF-8"))
readLines(textConnection("Z\u00FCrich", encoding="UTF-8"))

Dies führt jedoch dazu, dass die Ausgabe durcheinander gerät. Warum ist das? Wie soll ich anrufentextConnection um sicherzustellen, dass der Stream auf jeder Plattform oder in jedem Gebietsschema richtig gelesen wird?