Resultados de la búsqueda a petición "web-crawler"

1 la respuesta

Nodejs: solicitud asíncrona con una lista de URL

Estoy trabajando en un rastreador. Tengo que solicitar una lista de URL. Hay varios cientos de solicitudes al mismo tiempo si no lo configuro para que sea asíncrono. Me temo que explotaría mi ancho de banda o produciría mucho acceso de red al ...

4 la respuesta

Necesito una biblioteca potente de Web Scraper [cerrado]

Necesito una poderosa biblioteca de raspadores web para extraer contenidos de la web. Eso puede ser pagado o gratis, ambos estarán bien para mí. Sugiérame una biblioteca o una mejor forma de extraer los datos y almacenarlos en mi base de datos ...

1 la respuesta

¿Sabe Facebook que lo estoy raspando con PhantomJS y puede cambiar su sitio web para contrarrestarme?

Entonces, tal vez estoy siendo paranoico. Estoy raspando mi línea de tiempo de Facebook para un proyecto de pasatiempo usando PhantomJS. Básicamente, escribí un programa que encuentra todos mis anuncios consultando el texto de la páginaSponsored ...

15 la respuesta

¿Cómo hago un rastreador simple en PHP?

Tengo una página web con muchos enlaces. Quiero escribir un script que volcaría todos los datos contenidos en esos enlaces en un archivo local. ¿Alguien ha hecho eso con PHP? Las pautas generales y los trucos serían suficientes como respuesta.

11 la respuesta

Detectando rastreadores web 'sigilosos'

¿Qué opciones hay para detectar rastreadores web que no desean ser detectados? (Sé que las técnicas de detección de listas permitirán que el programador inteligente de rastreadores sigilosos haga una mejor araña, pero no creo que podamos ...

2 la respuesta

Error al rastrear el elemento de un sitio web específico con una araña temblorosa

Quiero obtener las direcciones de sitios web de algunos trabajos, así que escribo una araña fragmentaria, quiero obtener todo el valor conxpath://article/dl/dd/h2/a[@class="job-title"]/@href, pero cuando ejecuto la araña con comando: scrapy ...

1 la respuesta

misterioso error de rieles casi sin rastro

Tenemos un problema extraño con un rastreador. Ocasionalmente arrojará unRails FATAL error en alguna solicitud, pero el seguimiento es muy limitado y se parece a esto [2014-07-01 18:16:37] FATAL Rails : ArgumentError (invalid %-encoding (c ^ ...

3 la respuesta

¿Scrapy tiene un solo hilo o varios hilos?

Hay pocas configuraciones de concurrencia en Scrapy, comoCONCURRENT_REQUESTS [http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests]. ¿Significa que el rastreador Scrapy es multiproceso? Entonces si corroscrapy crawl my_crawler ...

5 la respuesta

Rastreador web que puede interpretar JavaScript [cerrado]

Quiero escribir un rastreador web que pueda interpretar JavaScript. Básicamente es un programa en Java o PHP que toma una URL como entrada y genera el árbol DOM que es similar a la salida en la ventana HTML de Firebug. El mejor ejemplo ...

6 la respuesta

Descarga de texto de Wikipedia

Estoy buscando descargar el texto completo de Wikipedia para mi proyecto universitario. ¿Tengo que escribir mi propia araña para descargar esto o hay un conjunto de datos público de Wikipedia disponible en línea? Para darle una visión general de ...