R: rvest - ist UTF-8 nicht korrekt, Codierung angeben?
Ich probiere das "neue" Rvest-Paket von Hadley Wickham aus.
Ich habe es in der Vergangenheit benutzt, also hätte ich erwartet, dass alles reibungslos läuft.
Allerdings habe ich diesen Fehler immer gesehen:
> TV_Audio_Video_Marca <- read_html(page_source[[1]], encoding = "ISO-8859-1")
Error: Input is not proper UTF-8, indicate encoding !
Bytes: 0xCD 0x20 0x53 0x2E [9]
Wie Sie im Code sehen, habe ich folgende Kodierung verwendet:ISO-8859-1
. Vorher habe ich "UTF-8" benutzt, aber funktioniereguess_encoding(page_source[[1]])
sagt, dass die Kodierung ist:ISO-8859-1
. Ich habe versucht, mit allen Optionen vonguess_encoding
aber keiner hat funktioniert.
Worin besteht das Problem
Mein Code:
library(RSelenium)
library(rvest)
#start RSelenium
checkForServer()
startServer()
remDr <- remoteDriver()
remDr$open()
#navigate to your page
remDr$navigate("http://www.linio.com.pe/tv-audio-y-video/televisores/")
#scroll down 5 times, waiting for the page to load at each time
for(i in 1:5){
remDr$executeScript(paste("scroll(0,",i*10000,");"))
Sys.sleep(3)
}
#get the page html
page_source<-remDr$getPageSource()
#parse it
TV_Audio_Video_Marca <- read_html(page_source[[1]], encoding = "UTF-16LE")
UPDATE 1
Ich habe gegoogelt nach "Wie wird jetzt die Kodierung einer Webseite durchgeführt?".
Fand dieses Makrup Validation Tool von W3C heraus, aber es war keine große Hilfe:
http: //validator.w3.org/check? uri = http: //www.w3.org/2003/10/empty/emptydoc.htm