Resultados de la búsqueda a petición "screen-scraping"
Raspado de pantalla: ¿expresiones regulares o expresiones XQuery?
Estaba respondiendo algunas preguntas del cuestionario para una entrevista, y la pregunta era sobre cómo haría el raspado de pantalla. Es decir, seleccionar contenido de una página web, suponiendo que no tiene una forma mejor estructurada de ...
Utilizando Ruby con Mechanize para iniciar sesión en un sitio web
Necesito raspar datos de un sitio, pero primero requiere mi inicio de sesión. He estado usando hpricot para raspar con éxito otros sitios, pero soy nuevo en el uso de mecanizar, y estoy realmente desconcertado por cómo hacerlo funcionar. Veo ...
HTML Parsing - Obtener datos de una tabla dentro de un div?
Soy relativamente nuevo en la idea del análisis / raspado de HTML. ¡Esperaba poder venir aquí para obtener la ayuda que necesito! Básicamente, lo que estoy buscando hacer (creo) es especificar la URL de la página de la que deseo obtener los ...
Mantener cookies entre solicitudes de Mechanize
Estoy tratando de usar la versión Ruby de Mechanize para extraer los boletos de mi empleador de un sistema de administración de boletos del que nos estamos alejando y que no proporciona una API. Problema es, parece que Mechanize no guarda las ...
Utilizando Nokogiri para dividir contenido en etiquetas BR
Tengo un fragmento de código que estoy tratando de analizar con nokogiri que se ve así: <td class="j"> <a title="title text1" href="http://link1.com">Link 1</a> (info1), Blah 1,<br> <a title="title text2" href="http://link2.com">Link ...
Python urllib2.open Restablecimiento de la conexión por error de pares
Estoy tratando de raspar una página usando python El problema es que sigo obteniendo el restablecimiento de la conexión Errno54 por un compañero. El error aparece cuando ejecuto este código ...
how para raspar esto con Simple HTML DOM [cerrado]
Estoy tratando de usar html dom simple para extraer elementos de un archivo que se ve así. El archivo tiene varias tablas que se ven igualesclass=sometable. Cada mesa tiene algunas<tr class=sometr>.uego, dentro de cada tr, tengoth que tiene ...
¿Cómo puedo obtener las credenciales de IE para usar en mi código?
Actualmente estoy desarrollando un complemento de IE usando SpicIE [http://code.msdn.microsoft.com/SpicIE]. Este complemento hace algunos raspados web similares al ejemplo publicado en MSDN: WebRequest request = WebRequest.Create ...
Guardar todos los archivos de imagen de un sitio web
Estoy creando una pequeña aplicación para mí donde ejecuto un script Ruby y guardo todas las imágenes de mi blog. No puedo entender cómo guardar los archivos de imagen después de haberlos identificado. Cualquier ayuda sería muy ...
¿Cuál es la mejor manera de iniciar sesión programáticamente en un sitio web para eliminar el raspado de pantalla? (Preferiblemente en Python)
Quiero poder iniciar sesión en un sitio web mediante programación y obtener periódicamente información del sitio. ¿Cuál es la mejor herramienta (s) que haría esto lo más simple posible? Prefiero una biblioteca de Python de algún tipo porque ...