Если бы порт был проблемой, вы бы получили другую ошибку. Похоже, что это может быть проблема с Java или что-то еще, мешающее запуску сервера Selenium. Я не знаю, как это исправить, кроме предложения обновления Java и переустановки Selenium. (К сожалению, переустановить сложно: RSelenium попытается установить его где-нибудь, и вам нужно будет найти это место и удалить файлы.)
у собрать данные с сайта hockey-reference.com, в частности, по этой ссылке:
https://www.hockey-reference.com/leagues/NHL_1991.html
Мне нужна четвертая таблица, которая называется «Статистика команды», и я также хочу вычесть первую и последнюю строки (но это может быть в другой раз).
Сначала я хочу, чтобы очистка работала со ссылкой 1991 года, но в конечном итоге я хочу очистить каждую ссылку с 1991 по 2017 год.
library(tidyverse)
library(rvest)
stat_urls <- "https://www.hockey-reference.com/leagues/NHL_1991.html"
Прямо сейчас у меня есть только ссылка 1991 года, для простоты. Кажется, я не могу найти правильный выбор CSS, хотя я пробовал несколько разных, после довольно тщательного поиска, используя источник "inspect" фактической веб-страницы. Я пробовал следующие варианты CSS:
table#stats.sortable.stats_table.now.sortable
#stats
#all_stats
#all_stats > div.table_outer_container
#stats
#stats > tbody
#div_stats (and all sorts of combos with this one)
Ничего из этого не работает, если используется в следующем коде:
team_stats <- stat_urls %>%
read_html() %>%
html_nodes("#stats") %>%
html_table(header = T)
Все попытки с "xpath =" также потерпели неудачу. Любая помощь с этим была бы абсолютно феноменальной, и Go Preds!