caracteres especiales en R

Question

Aug 15, 2012, 05:22 PM

caracteres especiales en R

Estoy trabajando para ser capaz de leer las transcripciones del diálogo en R. Sin embargo, me encuentro con un bache con caracteres especiales como comillas rizadas en y guiones, etc. Normalmente, sustituyo estos caracteres especiales en un producto de Microsoft primero conreplace. Por lo general, sustituyo los caracteres especiales por texto sin formato, pero en algunas ocasiones deseo reemplazarlos por otros caracteres (es decir, sustituyo “” con {}). Esto es tedioso y no siempre minucioso. Si pudiera leer las transcripciones en R tal como están y luego usar la codificación para cambiar su codificación a un formato Unicode reconocible, podríagsub Expréselos y reemplácelos con versiones de texto plano. Sin embargo, el archivo se lee de alguna manera que no entiendo. Aquí hay un xlsx de cómo pueden verse mis datos:

http://dl.dropbox.com/u/61803503/test.xlsx

Esto es lo que está en el archivo .xlsx

text                              num
“ ” curly quotes                    1
en dash (–) and the em dash (—)     2
‘ ’ curly apostrophe-ugg            3
…  ellipsis are uck in R            4

Esto se puede leer en R con:

URL <- "http://dl.dropbox.com/u/61803503/test.xlsx"
library(gdata) 
z <- read.xls(URL, stringsAsFactors = FALSE)

El resultado es:

                                 text num
1                â€œ â€ curly quotes    1
2 en dash (â€“) and the em dash (â€”)   2
3        â€˜ â€™ curly apostrophe-ugg   3
4          â€¦  ellipsis are uck in R   4

Así que traté de usarEncoding para convertir a Unicode:

iconv(z[, 1], "latin1", "UTF-8")

Esto da:

[1] "â\u0080\u009c â\u0080\u009d curly quotes"                "en dash (â\u0080\u0093) and the em dash (â\u0080\u0094)"
[3] "â\u0080\u0098 â\u0080\u0099 curly apostrophe-ugg"        "â\u0080¦  ellipsis are uck in R"

Lo que hace que gsubing sea menos útil.

¿Qué puedo hacer para convertir estos caracteres especiales en unicode distinguible para poder sacarlos correctamente? Para ser más explícito esperaba tenerz[1, 1] leer:

\u201C 2\u01D curly quotes

Para que quede aún más claro el resultado deseado, realizaré un seguimiento web de una página como wikipedia:http://en.wikipedia.org/wiki/Quotation_mark_glyphs y use la tabla de referencia de Unicode para reemplazar los caracteres adecuadamente. Así que necesito que los caracteres estén en Unicode o algún formato estándar por el que pueda pasar y reemplazar los caracteres de manera sistemática. Tal vez ya esté y me lo esté perdiendo.

PS No guardo los archivos como .csv o texto sin formato porque los caracteres especiales se reemplazan con? de ahí el uso deread.xls No estoy adjunto a ningún método particular de lectura en el archivo (es decir,read.xls) Si tienes una alternativa mejor.