Извлечение ссылок с веб-страницы с помощью R
Два поста ниже являются отличными примерами различных подходов извлечения данных с веб-сайтов и их разбора на R.
Скремблирование таблиц html в фреймы данных R с использованием пакета XML
Как я могу использовать R (пакеты Rcurl / XML?!) Для очистки этой веб-страницы
Я очень новичок в программировании, и только начинаю с R, поэтому я надеюсь, что этот вопрос довольно простой, но, учитывая эти посты выше, я думаю, что это так.
Все, что я хочу сделать, это извлечь ссылки, которые соответствуют заданному шаблону. Мне кажется, что я мог бы использовать RCurl для чтения на веб-страницах и извлечь их методом грубой силы, используя строковые выражения. Тем не менее, если веб-страница довольно хорошо сформирована, как бы я поступил так с помощью пакета XML.
По мере того как я узнаю больше, мне нравится «смотреть» на данные, когда я работаю над проблемой. Проблема заключается в том, что некоторые из этих подходов генерируют списки списков списков и т. Д., Поэтому новичку (например, мне) трудно пройти туда, куда мне нужно идти.
Опять же, я очень плохо знаком со всем, что программирует, поэтому любая помощь или фрагменты кода будут с благодарностью.