Resultados de la búsqueda a petición "web-crawler"

3 la respuesta

¿Es posible que Scrapy obtenga texto sin formato de datos html sin procesar directamente en lugar de usar selectores xPath?

Por ejemplo scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content entonces, obtuve los siguientes códigos html sin procesar: <div id="content"> <h2>Welcome to Scrapy</h2> <h3>What is Scrapy?</h3> ...

9 la respuesta

¿Cómo archivas un sitio web completo para verlo sin conexión?

En realidad, hemos quemado copias estáticas / archivadas de nuestros sitios web asp.net para clientes muchas veces. Hemos usado WebZip [http://www.spidersoft.com/] hasta ahora, pero hemos tenido un sinfín de problemas con bloqueos, páginas ...

6 la respuesta

Detección de rastreadores web honestos

Me gustaría detectar (en el lado del servidor) qué solicitudes son de bots. No me importan los robots maliciosos en este momento, solo los que están jugando bien. He visto algunos enfoques que en su mayoría implican hacer coincidir la cadena del ...

3 la respuesta

¿hay algún marco de rastreo web de script Java? [cerrado]

¿Hay algún framework de rastreadores web de JavaScript?

1 la respuesta

Crawler script php

Tomé un script aquí para rastrear un sitio web, lo puse en mi servidor y funciona. El único problema es que si trato de rastrear establecer la profundidad por encima de 4, no funciona. Me pregunto si se debe a la falta de recursos de los ...

9 la respuesta

Diseño de un rastreador web

Me encontré con una pregunta de entrevista "Si estuviera diseñando un rastreador web, ¿cómo evitaría entrar en bucles infinitos?" Y estoy tratando de responderla. ¿Cómo comienza todo desde el principio? Digamos que Google comenzó con ...

2 la respuesta

¿Google ignora lo que está después del fragmento hash (#) mientras rastrea nuestro sitio web?

Estamos usando la información que está después del fragmento hash para mostrar diferentes páginas usando JavaScript, a fin de no obligar al navegador a cargar toda la página nuevamente. Por ejemplo, un enlace directo a la página podría verse así ...

2 la respuesta

Necesito escribir un rastreador web para un agente de usuario específico

Necesito escribir un rastreador web y quiero poder rastrearlo utilizando un agente de usuario conocido. Por ejemplo, quiero que mi rastreador actúe como un iPhone para rastrear el sitio móvil de un sitio web, luego vuelva a rastrear usando el ...

1 la respuesta

l envío del formulario @Mechanze provoca un 'Error de aserción' en respuesta cuando se intenta .read ()

Estoy escribiendo un programa de rastreo web con python y no puedo iniciar sesión con mecanizar. El formulario en el sitio se ve así: <form method="post" action="PATLogon"> <h2 align="center"><img src="/myaladin/images/aladin_logo_rd.gif"></h2> ...

2 la respuesta

Nutch No hay agentes listados en 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...