Sonderzeichen in R

Question

Aug 15, 2012, 05:22 PM

Sonderzeichen in R

Ich arbeite daran, Transkripte von Dialogen in R lesen zu können. Allerdings stoße ich auf eine Unebenheit mit Sonderzeichen wie geschweiften Anführungszeichen (en und em) usw. Normalerweise ersetze ich diese Sonderzeichen in einem Microsoft-Produkt zuerst durchreplace. Normalerweise ersetze ich Sonderzeichen durch einfachen Text, aber manchmal möchte ich sie durch andere Zeichen ersetzen (dh ich ersetze "" durch {}). Das ist mühsam und nicht immer gründlich. Wenn ich die Transkripte so wie sie sind in R einlesen und dann mit Encoding ihre Codierung auf ein erkennbares Unicode-Format umstellen könnte, könnte ichgsub sie heraus und ersetzen Sie sie durch Nur-Text-Versionen. Allerdings ist die Datei irgendwie eingelesen, was ich nicht verstehe. Hier ist ein xlsx, wie meine Daten aussehen könnten:

http://dl.dropbox.com/u/61803503/test.xlsx

Dies ist, was in der XLSX-Datei ist

text                              num
“ ” curly quotes                    1
en dash (–) and the em dash (—)     2
‘ ’ curly apostrophe-ugg            3
…  ellipsis are uck in R            4

Dies kann in R eingelesen werden mit:

URL <- "http://dl.dropbox.com/u/61803503/test.xlsx"
library(gdata) 
z <- read.xls(URL, stringsAsFactors = FALSE)

Das Ergebnis ist:

                                 text num
1                â€œ â€ curly quotes    1
2 en dash (â€“) and the em dash (â€”)   2
3        â€˜ â€™ curly apostrophe-ugg   3
4          â€¦  ellipsis are uck in R   4

Also habe ich versucht zu verwendenEncoding So konvertieren Sie nach Unicode:

iconv(z[, 1], "latin1", "UTF-8")

Das gibt:

[1] "â\u0080\u009c â\u0080\u009d curly quotes"                "en dash (â\u0080\u0093) and the em dash (â\u0080\u0094)"
[3] "â\u0080\u0098 â\u0080\u0099 curly apostrophe-ugg"        "â\u0080¦  ellipsis are uck in R"

Das macht Gsubing weniger nützlich.

Was kann ich tun, um diese Sonderzeichen in unterscheidbaren Unicode umzuwandeln, damit ich sie entsprechend ausgeben kann? Genauer gesagt hatte ich gehofft zu habenz[1, 1] lesen:

\u201C 2\u01D curly quotes

Um mein gewünschtes Ergebnis noch deutlicher zu machen, werde ich die Tabellen von einer Seite wie der von Wikipedia aus kratzen:http://en.wikipedia.org/wiki/Quotation_mark_glyphs Verwenden Sie die Unicode-Referenztabelle, um Zeichen entsprechend zu ersetzen. Daher müssen die Zeichen in Unicode oder einem Standardformat vorliegen, das ich systematisch durchgehen und die Zeichen ersetzen kann. Vielleicht ist es schon und ich vermisse es.

PS Ich speichere die Dateien nicht als .csv oder Klartext, da die Sonderzeichen durch ersetzt werden? daher die Verwendung vonread.xls Ich bin an keine bestimmte Methode zum Einlesen der Datei gebunden (d. Hread.xls), wenn Sie eine bessere Alternative haben.

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Veröffentlichen von Visual Studio 2015 - Zulassen von nicht vertrauenswürdigen Zertifikaten

0 die antwort

Git-Tipps und Tricks: Die Anzeige der Verzweigung an der Eingabeaufforderung funktioniert nicht und es wurden Nebenwirkungen der Git-Verzweigungsfunktion und vieler anderer Funktionen festgestellt

0 die antwort

Beste Art, Getter durch Reflektion aufzurufen

0 die antwort

angularJS - füge eine statische Option mit ng-options hinzu

0 die antwort

WP7 IE - CSS Modal Popup: Taps / Clicks gehen durch Overlay Div und lösen Links aus, die unsichtbar sein sollten

Du bist sehr aktiv! Es ist großartig!

Sonderzeichen in R

Antworten auf die Frage(2)

Ihre Antwort auf die Frage

Top Fragen