wyodrębnij pojedynczy ciąg z HTML używając Ruby / Mechanize (i Nokogiri)

Question

Jan 22, 2010, 04:07 AM

nokogiri parsing information-extraction ruby

wyodrębnij pojedynczy ciąg z HTML używając Ruby / Mechanize (i Nokogiri)

Wyodrębniam dane z forum. Mój skryptoparte na działa dobrze. Teraz muszę wyodrębnić datę i godzinę (21 grudnia 2009, 20:39) z jednego posta. Nie mogę tego zrobić. Użyłem FireXPath do określenia ścieżki xpath.

Przykładowy kod:

 require 'rubygems'
 require 'mechanize'

   post_agent = WWW::Mechanize.new
    post_page = post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')
    puts  post_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
    puts  post_page.parser.at_xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
    puts post_page.parser.xpath('//[@id="post1960370"]/tbody/tr[1]/td/div[2]/text()')

wszystkie moje próby kończą się pustym łańcuchem lub błędem.

Nie mogę znaleźć żadnej dokumentacji dotyczącej korzystania z Nokogiri w Mechanize.Dokumentacja Mechanize mówi na dole strony:

Po użyciu Mechanize do przejścia na stronę, którą musisz zeskrobać, zeskrob ją przy użyciu metod Nokogiri.

Ale jakie metody? Gdzie mogę przeczytać o nich z przykładami i wyjaśnić składnię? Nic nie znalazłemStrona Nokogiri zarówno.