znaki specjalne w R

Question

Aug 15, 2012, 05:22 PM

znaki specjalne w R

Pracuję nad możliwością odczytu transkrypcji dialogów do R. Jednak wpadam na uderzenie ze znakami specjalnymi, takimi jak cytaty kręcone en i em kreski itp. Zazwyczaj zastępuję te znaki specjalne w produkcie firmy Microsoft najpierwreplace. Zazwyczaj zastępuję znaki specjalne zwykłym tekstem, ale w niektórych przypadkach chcę zastąpić je innymi znakami (tj. Zastępuję „” znakiem {}). To jest nudne i nie zawsze dokładne. Gdybym mógł odczytać transkrypcje do R jak jest, a następnie użyć Kodowania, aby przełączyć kodowanie na rozpoznawalny format Unicode, mógłbymgsub je i zastąp je zwykłymi wersjami tekstowymi. Plik jest jednak odczytywany w jakiś sposób, którego nie rozumiem. Oto xlsx tego, jak mogą wyglądać moje dane:

http://dl.dropbox.com/u/61803503/test.xlsx

To jest w pliku .xlsx

text                              num
“ ” curly quotes                    1
en dash (–) and the em dash (—)     2
‘ ’ curly apostrophe-ugg            3
…  ellipsis are uck in R            4

Można to wczytać w R za pomocą:

URL <- "http://dl.dropbox.com/u/61803503/test.xlsx"
library(gdata) 
z <- read.xls(URL, stringsAsFactors = FALSE)

Wynik to:

                                 text num
1                â€œ â€ curly quotes    1
2 en dash (â€“) and the em dash (â€”)   2
3        â€˜ â€™ curly apostrophe-ugg   3
4          â€¦  ellipsis are uck in R   4

Więc spróbowałem użyćEncoding konwertować do Unicode:

iconv(z[, 1], "latin1", "UTF-8")

To daje:

[1] "â\u0080\u009c â\u0080\u009d curly quotes"                "en dash (â\u0080\u0093) and the em dash (â\u0080\u0094)"
[3] "â\u0080\u0098 â\u0080\u0099 curly apostrophe-ugg"        "â\u0080¦  ellipsis are uck in R"

Co sprawia, że gsubing jest mniej przydatny.

Co mogę zrobić, aby przekonwertować te znaki specjalne na rozróżnialny kod Unicode, aby móc je odpowiednio wysyłać? Aby być bardziej wyraźnym, miałem nadziejęz[1, 1] czytać:

\u201C 2\u01D curly quotes

Aby jeszcze bardziej uwydatnić pożądany przeze mnie rezultat, zeskrobuję tabele ze strony takiej jak wikipedia:http://en.wikipedia.org/wiki/Quotation_mark_glyphs i użyj wykresu odniesienia Unicode, aby odpowiednio zastąpić znaki. Potrzebuję więc znaków, aby były w formacie Unicode lub w jakimś standardowym formacie, przez który mogę systematycznie przechodzić i zastępować znaki. Może już jest i tęsknię za tym.

PS Nie zapisuję plików jako .csv lub zwykłego tekstu, ponieważ znaki specjalne są zastępowane? stąd użycieread.xls Nie jestem przywiązany do żadnej konkretnej metody odczytu pliku (tjread.xls) jeśli masz lepszą alternatywę.