Jak webscrape zabezpieczone strony w R (łącza https) (używając readHTMLTable z pakietu XML)?

Question

May 21, 2012, 10:22 PM

Jak webscrape zabezpieczone strony w R (łącza https) (używając readHTMLTable z pakietu XML)?

Istnieją dobre odpowiedzi na temat SO o tym, jak używać readHTMLTable z pakietu XML, i zrobiłem to na zwykłych stronach http, jednak nie jestem w stanie rozwiązać mojego problemu ze stronami https.

Próbuję odczytać tabelę na tej stronie (ciąg URL):

library(RTidyHTML)
library(XML)
url <- "https://ned.nih.gov/search/ViewDetails.aspx?NIHID=0010121048"
h = htmlParse(url)
tables <- readHTMLTable(url)

Ale dostaję ten błąd: Plikhttps://ned.nih.gov/search/Vi...does nie istnieje.

Próbowałem ominąć problem https z tym (pierwsze 2 wiersze poniżej) (z używania google do znalezienia rozwiązania (jak tutaj:http://tonybreyal.wordpress.com/2012/01/13/r-a-quick-scrape-of-top-grossing-films-from-boxofficemojo-com/).

Ta sztuczka pomaga zobaczyć więcej stron, ale wszelkie próby wyodrębnienia tabeli nie działają. Wszelkie porady doceniane. Potrzebuję pól tabeli takich jak Organizacja, Tytuł organizacyjny, Menedżer.

 #attempt to get past the https problem 
 raw <- getURL(url, followlocation = TRUE, cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl"))
 head(raw)
[1] "\r\n<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\n<html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"en\" lang=\"en\">\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; 
...
 h = htmlParse(raw)
Error in htmlParse(raw) : File ...
tables <- readHTMLTable(raw)
Error in htmlParse(doc) : File ...