R: rvest - не правильный UTF-8, указать кодировку?
Я пробую «новый» пакет Rvest от Хэдли Уикхем.
Я использовал это в прошлом, поэтому я ожидал, что все пройдет гладко.
Тем не менее, я продолжаю видеть эту ошибку:
> TV_Audio_Video_Marca <- read_html(page_source[[1]], encoding = "ISO-8859-1")
Error: Input is not proper UTF-8, indicate encoding !
Bytes: 0xCD 0x20 0x53 0x2E [9]
Как вы видите в коде, я использую кодировку:ISO-8859-1
, До этого я использовал "UTF-8", но функциюguess_encoding(page_source[[1]])
говорит, что кодировка:ISO-8859-1
, Я пробовал все варианты, предоставленныеguess_encoding
но никто не работал.
В чем проблема?
Мой код:
library(RSelenium)
library(rvest)
#start RSelenium
checkForServer()
startServer()
remDr <- remoteDriver()
remDr$open()
#navigate to your page
remDr$navigate("http://www.linio.com.pe/tv-audio-y-video/televisores/")
#scroll down 5 times, waiting for the page to load at each time
for(i in 1:5){
remDr$executeScript(paste("scroll(0,",i*10000,");"))
Sys.sleep(3)
}
#get the page html
page_source<-remDr$getPageSource()
#parse it
TV_Audio_Video_Marca <- read_html(page_source[[1]], encoding = "UTF-16LE")
ОБНОВЛЕНИЕ 1
Я гуглил «Как теперь кодировать веб-страницу?».
Обнаружил этот инструмент проверки макрупов от W3C, но он не очень помог:
http://validator.w3.org/check?uri=http://www.w3.org/2003/10/empty/emptydoc.html