extraer una sola cadena de HTML usando Ruby / Mechanize (y Nokogiri)

Question

Jan 22, 2010, 04:07 AM

nokogiri information-extraction ruby parsing

extraer una sola cadena de HTML usando Ruby / Mechanize (y Nokogiri)

Estoy extrayendo datos de un foro. Mi guionResidencia en está funcionando bien Ahora necesito extraer la fecha y la hora (21 de diciembre de 2009, 20:39) de una sola publicación. No puedo hacerlo funcionar. Utilicé FireXPath para determinar el xpath.

Código de muestra:

 require 'rubygems'
 require 'mechanize'

   post_agent = WWW::Mechanize.new
    post_page = post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')
    puts  post_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
    puts  post_page.parser.at_xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
    puts post_page.parser.xpath('//[@id="post1960370"]/tbody/tr[1]/td/div[2]/text()')

todos mis intentos terminan con una cadena vacía o un error.

No puedo encontrar ninguna documentación sobre el uso de Nokogiri dentro de Mechanize.La documentación de mecanización. Dice en la parte inferior de la página:

Después de haber utilizado Mechanize para navegar a la página que necesita raspar, luego raspe utilizando los métodos de Nokogiri.

Pero ¿qué métodos? ¿Dónde puedo leer sobre ellos con ejemplos y sintaxis explicada? No encontré nada enEl sitio de Nokogiri ya sea.