Сбор данных из таблиц на нескольких веб-страницах в R (футболисты)
Я работаю над проектом для школы, где мне нужно собрать статистику карьеры для отдельных футболистов NCAA. Данные для каждого игрока находятся в этом формате.
http://www.sports-reference.com/cfb/players/ryan-aplin-1.html
Я не могу найти совокупность всех игроков, поэтому мне нужно переходить от страницы к странице и вытаскивать нижний ряд каждого проходного балла Rushing & получение и т. д. HTML-таблица
Каждый игрок разделен на свои фамилии со ссылками на каждый алфавит, идущий сюда.
http://www.sports-reference.com/cfb/players/
Например, каждый игрок с фамилией А находится здесь.
http://www.sports-reference.com/cfb/players/a-index.html
Это мой первый раз, когда я действительно начал изучать данные, поэтому я попытался найти похожие вопросы с ответами. Ближайший ответ, который я нашел, былэтот вопрос
Я думаю, что я мог бы использовать что-то очень похожее, когда я переключаю номер страницы с собранным игрокомимя Однако я'Я не уверен, как изменить его, чтобы искать имя игрока вместо номера страницы.
Сэмюэль Л. Вентура также выступил с докладом о сборе данных для данных НФЛ, которые можно найтиВот.
РЕДАКТИРОВАТЬ:
Бен был очень любезен и предоставил отличный код. Первая часть работает очень хорошо, однако, когда я пытаюсь запустить вторую часть, я сталкиваюсь с этим.
> # unlist into a single character vector
> links # Go to each URL in the list and scrape all the data from the tables
> # this will take some time... don't interrupt it!
> all_tables # Put player names in the list so we know who the data belong to
> # extract names from the URLs to their stats page...
> toMatch player_names # assign player names to list of tables
> names(all_tables) fix(inx_page)
Error in edit(name, file, title, editor) :
unexpected '