Wybieranie wierszy, w których kolumna ma ciąg znaków, np. „Hsa ..” (częściowe dopasowanie ciągu)
Mam plik tekstowy o rozmiarze 371 MB zawierający dane mikro RNA. Zasadniczo chciałbym wybrać tylko te wiersze, które zawierają informacje o ludzkim mikroRNA.
Przeczytałem plik używając tabeli read.table. Zazwyczaj osiągałbym to, co chciałbym z sqldf - gdyby miał składnię „podobną” (wybierz * z <> gdzie miRNA jak „hsa”). Niestety - sqldf nie obsługuje tej składni.
Jak mogę to zrobić w R? Rozejrzałem się wokół stackoverflow i nie widzę przykładujak mogę wykonać częściowe dopasowanie ciągów. Zainstalowałem nawet pakiet stringr - ale nie ma tego, czego potrzebuję.
To, co chciałbym zrobić, to coś w tym stylu - gdzie wszystkie rzędy, w których znajduje się hsa-* są wybrane.
selectedRows <- conservedData[, conservedData$miRNA %like% "hsa-"]
co oczywiście nie jest poprawną składnią.
Czy ktoś może mi z tym pomóc? Wielkie dzięki za czytanie.
Asda