extrair string única do HTML usando Ruby / Mechanize (e Nokogiri)
Estou extraindo dados de um fórum. Meu scriptbaseado em está funcionando bem. Agora preciso extrair data e hora (21 dez 2009, 20:39) de uma única postagem. Não consigo fazer funcionar. Eu usei o FireXPath para determinar o xpath.
Código de amostra:
require 'rubygems'
require 'mechanize'
post_agent = WWW::Mechanize.new
post_page = post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')
puts post_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.at_xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.xpath('//[@id="post1960370"]/tbody/tr[1]/td/div[2]/text()')
todas as minhas tentativas terminam com uma string vazia ou com um erro.
Não consigo encontrar nenhuma documentação sobre o uso do Nokogiri no Mechanize.A documentação de mecanizar diz na parte inferior da página:
Depois de usar o Mechanize para navegar até a página que você precisa raspar, raspe-a usando os métodos Nokogiri.
Mas que métodos? Onde posso ler sobre eles com amostras e sintaxe explicada? Não encontrei nada noSite de Nokogiri ou.