Especifique diferentes tipos de valores perdidos (NAs)

Question

Apr 18, 2013, 06:16 AM

Especifique diferentes tipos de valores perdidos (NAs)

Estoy interesado en especificar los tipos de valores perdidos. Tengo datos que tienen diferentes tipos de faltantes y estoy tratando de codificar estos valores como faltantes en R, pero estoy buscando una solución donde aún pueda distinguirlos.

Digamos que tengo algunos datos que se parecen a esto,

set.seed(667) 
df <- data.frame(a = sample(c("Don't know/Not sure","Unknown","Refused","Blue", "Red", "Green"),  20, rep=TRUE), b = sample(c(1, 2, 3, 77, 88, 99),  10, rep=TRUE), f = round(rnorm(n=10, mean=.90, sd=.08), digits = 2), g = sample(c("C","M","Y","K"),  10, rep=TRUE) ); df
#                      a  b    f g
# 1              Unknown  2 0.78 M
# 2              Refused  2 0.87 M
# 3                  Red 77 0.82 Y
# 4                  Red 99 0.78 Y
# 5                Green 77 0.97 M
# 6                Green  3 0.99 K
# 7                  Red  3 0.99 Y
# 8                Green 88 0.84 C
# 9              Unknown 99 1.08 M
# 10             Refused 99 0.81 C
# 11                Blue  2 0.78 M
# 12               Green  2 0.87 M
# 13                Blue 77 0.82 Y
# 14 Don't know/Not sure 99 0.78 Y
# 15             Unknown 77 0.97 M
# 16             Refused  3 0.99 K
# 17                Blue  3 0.99 Y
# 18               Green 88 0.84 C
# 19             Refused 99 1.08 M
# 20                 Red 99 0.81 C

Si ahora hago dos tablas mis valores faltantes ("Don't know/Not sure","Unknown","Refused" y77, 88, 99) se incluyen como datos regulares,

table(df$a,df$g)
#                     C K M Y
# Blue                0 0 1 2
# Don't know/Not sure 0 0 0 1
# Green               2 1 2 0
# Red                 1 0 0 3
# Refused             1 1 2 0
# Unknown             0 0 3 0

y

table(df$b,df$g)
#    C K M Y
# 2  0 0 4 0
# 3  0 2 0 2
# 77 0 0 2 2
# 88 2 0 0 0
# 99 2 0 2 2

Ahora recodifico los tres niveles de factores"Don't know/Not sure","Unknown","Refused" dentro<NA>

is.na(df[,c("a")]) <- df[,c("a")]=="Don't know/Not sure"|df[,c("a")]=="Unknown"|df[,c("a")]=="Refused"

y eliminar los niveles vacíos

df$a <- factor(df$a)

Y lo mismo se hace con los valores numéricos.77, 88, y99

is.na(df) <- df=="77"|df=="88"|df=="99"

table(df$a, df$g, useNA = "always")       
#       C K M Y <NA>
# Blue  0 0 1 2    0
# Green 2 1 2 0    0
# Red   1 0 0 3    0
# <NA>  1 1 5 1    0

table(df$b,df$g, useNA = "always")
#      C K M Y <NA>
# 2    0 0 4 0    0
# 3    0 2 0 2    0
# <NA> 4 0 4 4    0

Ahora las categorías que faltan están recodificadas enNA pero todos están agrupados. ¿Hay alguna manera de recodificar algo como faltante, pero retener eloriginal ¿valores? Quiero R para enhebrar"Don't know/Not sure","Unknown","Refused" y77, 88, 99 como faltante, pero quiero poder seguir teniendo la información en la variable.