Resultados de la búsqueda a petición "web-crawler"

16 la respuesta

Obtenga una lista de URL de un sitio [cerrado]

Estoy implementando un sitio de reemplazo para un cliente, pero no quieren que todas sus páginas anteriores terminen en 404. Mantener la antigua estructura de URL no era posible porque era horrible. Así que estoy escribiendo un controlador 404 ...

6 la respuesta

Cómo obtener el código fuente de una página web de Java [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo se descarga mediante programación una página web en Java [/questions/238547/how-do-you-programmatically-download-a-webpage-in-java] 11 respuestas Solo quiero recuperar el código fuente de ...

2 la respuesta

Errors con respecto a Web Crawler en PHP

stoy tratando de crear un rastreador web simple usando PHP que sea capaz de rastrear dominios .edu, siempre que las URL iniciales del padre. He usado html dom simple para implementar el rastreador, mientras que yo ejecuto parte de la lógica ...

6 la respuesta

Cómo ignoro los tipos de archivo en un rastreador web?

Estoy escribiendo un rastreador web y quiero ignorar las URL que enlazan con archivos binarios: $exclude = %w(flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 wav wmv ape aac ac3 wma aiff mpg mpeg avi mov ogg mkv mka ...

6 la respuesta

Cómo construir un rastreador de Python para sitios web usando oauth2

Soy nuevo en programación web. Quiero construir un rastreador para rastrear el gráfico social en Foursquare de Python. Tengo un rastreador controlado "manualmente" usando elapiv2 biblioteca. El método principal es como: def main(): CODE = ...

4 la respuesta

Utilizando Nutch para rastrear una lista de URL especificada

Tengo un millón de listas de URL para buscar. Utilizo esta lista como semillas de nuez y utilizo la @ básigatea comando de Nutch para buscarlos. Sin embargo, encuentro que Nutch busca automáticamente las URL que no están en la lista. Establezco ...

16 la respuesta

¿Cómo identificar los rastreadores web de google / yahoo / msn por PHP?

HASTA DONDE SE $ _ SERVER ['REMOTE_HOST'] debería terminar con "google.com" o "yahoo.com". pero ¿es el método más seguro? ¿Otra salida?

4 la respuesta

Equivalente de wget en Python para descargar el sitio web y los recursos

Same thing preguntó hace 2.5 años enDescargar una página web y todos sus archivos de recursos en Python [https://stackoverflow.com/questions/844115/downloading-a-web-page-and-all-of-its-resource-files-in-python] pero no conduce a una respuesta y ...

10 la respuesta

¿Cómo solicitar a Google que vuelva a rastrear mi sitio web? [cerrado

¿Alguien sabe una forma de solicitar a Google que vuelva a rastrear un sitio web? Si es posible, esto no debería durar meses. Mi sitio muestra un título antiguo en los resultados de búsqueda de Google. ¿Cómo puedo mostrarlo con el título y la ...

2 la respuesta

¿Puedo ejecutar un rastreo scrapy (python) fuera del directorio del proyecto?

The docs dice que solo podría ejecutar el comando de rastreo dentro del directorio del proyecto: scrapy crawl tutor -o items.json -t json pero realmente necesito ejecutarlo en mi código python (el archivo python no está dentro del directorio ...