Извлечение ссылок с веб-страницы с помощью R

Question

Sep 19, 2010, 05:22 PM

Извлечение ссылок с веб-страницы с помощью R

Два поста ниже являются отличными примерами различных подходов извлечения данных с веб-сайтов и их разбора на R.

Скремблирование таблиц html в фреймы данных R с использованием пакета XML

Как я могу использовать R (пакеты Rcurl / XML?!) Для очистки этой веб-страницы

Я очень новичок в программировании, и только начинаю с R, поэтому я надеюсь, что этот вопрос довольно простой, но, учитывая эти посты выше, я думаю, что это так.

Все, что я хочу сделать, это извлечь ссылки, которые соответствуют заданному шаблону. Мне кажется, что я мог бы использовать RCurl для чтения на веб-страницах и извлечь их методом грубой силы, используя строковые выражения. Тем не менее, если веб-страница довольно хорошо сформирована, как бы я поступил так с помощью пакета XML.

По мере того как я узнаю больше, мне нравится «смотреть» на данные, когда я работаю над проблемой. Проблема заключается в том, что некоторые из этих подходов генерируют списки списков списков и т. Д., Поэтому новичку (например, мне) трудно пройти туда, куда мне нужно идти.

Опять же, я очень плохо знаком со всем, что программирует, поэтому любая помощь или фрагменты кода будут с благодарностью.

Извлечение ссылок с веб-страницы с помощью R

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Извлечение ссылок с веб-страницы с помощью R

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы