Gráfico de distribución R con datos y umbrales de NA
Tengo un gran archivo de datos en el formulario:
Input_SNP Set_1 Set_2 Set_3 Set_4 Set_5 Set_6
1.09 0.162 NA 2.312 1.876 0.12 0.812
0.687 NA 0.987 1.32 1.11 1.04 NA
NA 1.890 0.923 1.43 0.900 2.02 2.7
2.801 0.642 0.791 0.812 NA 0.31 1.60
1.33 1.33 NA 1.22 0.23 0.18 1.77
2.91 1.00 1.651 NA 1.55 3.20 0.99
2.00 2.31 0.89 1.13 1.25 0.12 1.55
Me gustaría hacer una distribución de los totales en cada columna que son más de 2.0. Por ejemplo, Set_1> 2 = 1, Set_2> 2 = 0, Set_3> 2 = 1. El problema es que cada columna tiene una cantidad "aleatoria" de datos faltantes (NA). Entonces eso arruina la distribución. Parece que mi única opción es hacer una distribución de porcentajes. Por ejemplo: Set_1> 2 = 1/6, Set_2> 2 = 0/5, Set_3> 2 = 1/6. Me gustaría hacer una distribución de estos porcentajes en una curva de campana de histograma binned. A pesar de mi ejemplo, los porcentajes en cada columna sobre 2 deberían estar entre 0.00% y 3.00%, por lo que sería bueno tener contenedores de tamaño 0.05. Entonces me gustaría trazar mi porcentaje Input_SNP en esa distribución para obtener un valor p. ¿Saben cómo hacer esto en R? ¿Actualmente esto está en un archivo data.frame y en un .csv?
Había estado intentando:hist(colSums(as.matrix(df) > 2))
pero eso no había funcionado (creo que debido a las NA). Entonces, ¿cómo puedo incorporar eso?
Mi salida deseada es un histograma de porcentajes de cada columna que está por encima de 2. Los bins en el histograma pueden ser 0.05.