График распределения R с данными NA и пороговыми значениями
У меня есть большой файл данных в форме:
Input_SNP Set_1 Set_2 Set_3 Set_4 Set_5 Set_6
1.09 0.162 NA 2.312 1.876 0.12 0.812
0.687 NA 0.987 1.32 1.11 1.04 NA
NA 1.890 0.923 1.43 0.900 2.02 2.7
2.801 0.642 0.791 0.812 NA 0.31 1.60
1.33 1.33 NA 1.22 0.23 0.18 1.77
2.91 1.00 1.651 NA 1.55 3.20 0.99
2.00 2.31 0.89 1.13 1.25 0.12 1.55
Я хотел бы сделать распределение итогов в каждом столбце, которые превышают 2,0. Например, Set_1> 2 = 1, Set_2> 2 = 0, Set_3> 2 = 1. Проблема заключается в том, что в каждом столбце содержится «случайное» количество пропущенных данных (NA). Так что это портит распределение. Кажется, мой единственный вариант - распределить проценты. Например: Set_1> 2 = 1/6, Set_2> 2 = 0/5, Set_3> 2 = 1/6. Я хотел бы распределить эти проценты в виде кривой гистограммы в виде бина. Несмотря на мой пример, проценты в каждом столбце над 2 должны быть между 0,00% и 3,00%, поэтому ящики размером 0,05 были бы хорошими. Затем я хотел бы построить процентное соотношение Input_SNP для этого распределения, чтобы получить p-значение. Ребята, вы знаете, как это сделать в R? В настоящее время это и в файле data.frame и в .csv?
Я пытался:hist(colSums(as.matrix(df) > 2))
но это не сработало (думаю, из-за АН). Так как я могу включить это?
Мой желаемый результат - гистограмма процентного содержания каждого столбца, превышающего 2. Значения бинов на гистограмме могут быть 0,05.