wyodrębnij pojedynczy ciąg z HTML używając Ruby / Mechanize (i Nokogiri)
Wyodrębniam dane z forum. Mój skryptoparte na działa dobrze. Teraz muszę wyodrębnić datę i godzinę (21 grudnia 2009, 20:39) z jednego posta. Nie mogę tego zrobić. Użyłem FireXPath do określenia ścieżki xpath.
Przykładowy kod:
require 'rubygems'
require 'mechanize'
post_agent = WWW::Mechanize.new
post_page = post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')
puts post_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.at_xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.xpath('//[@id="post1960370"]/tbody/tr[1]/td/div[2]/text()')
wszystkie moje próby kończą się pustym łańcuchem lub błędem.
Nie mogę znaleźć żadnej dokumentacji dotyczącej korzystania z Nokogiri w Mechanize.Dokumentacja Mechanize mówi na dole strony:
Po użyciu Mechanize do przejścia na stronę, którą musisz zeskrobać, zeskrob ją przy użyciu metod Nokogiri.
Ale jakie metody? Gdzie mogę przeczytać o nich z przykładami i wyjaśnić składnię? Nic nie znalazłemStrona Nokogiri zarówno.