Sonderzeichen in R

Ich arbeite daran, Transkripte von Dialogen in R lesen zu können. Allerdings stoße ich auf eine Unebenheit mit Sonderzeichen wie geschweiften Anführungszeichen (en und em) usw. Normalerweise ersetze ich diese Sonderzeichen in einem Microsoft-Produkt zuerst durchreplace. Normalerweise ersetze ich Sonderzeichen durch einfachen Text, aber manchmal möchte ich sie durch andere Zeichen ersetzen (dh ich ersetze "" durch {}). Das ist mühsam und nicht immer gründlich. Wenn ich die Transkripte so wie sie sind in R einlesen und dann mit Encoding ihre Codierung auf ein erkennbares Unicode-Format umstellen könnte, könnte ichgsub sie heraus und ersetzen Sie sie durch Nur-Text-Versionen. Allerdings ist die Datei irgendwie eingelesen, was ich nicht verstehe. Hier ist ein xlsx, wie meine Daten aussehen könnten:

http://dl.dropbox.com/u/61803503/test.xlsx

Dies ist, was in der XLSX-Datei ist

text                              num
“ ” curly quotes                    1
en dash (–) and the em dash (—)     2
‘ ’ curly apostrophe-ugg            3
…  ellipsis are uck in R            4

Dies kann in R eingelesen werden mit:

URL <- "http://dl.dropbox.com/u/61803503/test.xlsx"
library(gdata) 
z <- read.xls(URL, stringsAsFactors = FALSE) 

Das Ergebnis ist:

                                 text num
1                “ †curly quotes    1
2 en dash (–) and the em dash (—)   2
3        ‘ ’ curly apostrophe-ugg   3
4          …  ellipsis are uck in R   4

Also habe ich versucht zu verwendenEncoding So konvertieren Sie nach Unicode:

iconv(z[, 1], "latin1", "UTF-8")

Das gibt:

[1] "â\u0080\u009c â\u0080\u009d curly quotes"                "en dash (â\u0080\u0093) and the em dash (â\u0080\u0094)"
[3] "â\u0080\u0098 â\u0080\u0099 curly apostrophe-ugg"        "â\u0080¦  ellipsis are uck in R"     

Das macht Gsubing weniger nützlich.

Was kann ich tun, um diese Sonderzeichen in unterscheidbaren Unicode umzuwandeln, damit ich sie entsprechend ausgeben kann? Genauer gesagt hatte ich gehofft zu habenz[1, 1] lesen:

\u201C 2\u01D curly quotes

Um mein gewünschtes Ergebnis noch deutlicher zu machen, werde ich die Tabellen von einer Seite wie der von Wikipedia aus kratzen:http://en.wikipedia.org/wiki/Quotation_mark_glyphs Verwenden Sie die Unicode-Referenztabelle, um Zeichen entsprechend zu ersetzen. Daher müssen die Zeichen in Unicode oder einem Standardformat vorliegen, das ich systematisch durchgehen und die Zeichen ersetzen kann. Vielleicht ist es schon und ich vermisse es.

PS Ich speichere die Dateien nicht als .csv oder Klartext, da die Sonderzeichen durch ersetzt werden? daher die Verwendung vonread.xls Ich bin an keine bestimmte Methode zum Einlesen der Datei gebunden (d. Hread.xls), wenn Sie eine bessere Alternative haben.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage