Как изолировать отдельный элемент от очищенной веб-страницы в R

Question

Jun 08, 2010, 05:14 PM

Как изолировать отдельный элемент от очищенной веб-страницы в R

Я хочу использовать R, чтобы очистить эту страницу :(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html ) и другие, чтобы забить голы и раз.

Пока это то, что у меня есть:

require(RCurl)
require(XML)

theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE) 
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)  

pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)

и объект pagetree теперь содержит указатель на мой проанализированный HTML (я думаю). Часть, которую я хочу:

<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
        <li>Philipp LAHM (GER) 6', </li>
        <li>Paulo WANCHOPE (CRC) 12', </li>
        <li>Miroslav KLOSE (GER) 17', </li>
        <li>Miroslav KLOSE (GER) 61', </li>
        <li>Paulo WANCHOPE (CRC) 73', </li>
        <li>Torsten FRINGS (GER) 87'</li>
</ul></div>

Но я теперь потерян, как изолировать их, и, честно говоря,xpathSApply а такжеxpathApply сбить с толку пчеловодов из меня!

Итак, кто-нибудь знает, как сформулировать команду, чтобы высосать элемент, содержащийся в<div class="cont"> теги?

Как изолировать отдельный элемент от очищенной веб-страницы в R

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как изолировать отдельный элемент от очищенной веб-страницы в R

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы