Resultados da pesquisa a pedido "web-crawler"

1 a resposta

Como escrever código scrapy python para extrair os URLs presentes no mapa do site de um site

Estou tentando usar esse código para obter a lista de URLs no sitemap. Quando executo isso, não vejo resultados na tela. alguém poderia me dizer qual é o problema ou sugerir-me melhor com um bom exemplo. desde já, obrigado class ...

0 a resposta

Diferença entre rastrear e obter links com o pacote Agility Html,

Estou obtendo links de um site usando o pacote Agility Html com o aplicativo de console c #, fornecendo os divs que eu quero e obtendo os links desses divs, minha pergunta é o que estou fazendo é rastrear ou analisar, se não, o que está rastreando

3 a resposta

Espera condicional de pesadelo ()

Estou tentando rastrear uma página da Web usando o Nightmare, mas quero aguardar#someelem estar presente, apenas se ele realmente existir. Caso contrário, quero que o Nightmare siga em frente. Como isso pode ser feito usando.wait()? Não posso ...

3 a resposta

Node.JS: Como passar variáveis para retornos de chamada assíncronos? [duplicado

Esta pergunta já tem uma resposta aqui: JavaScript encerramento dentro de loops - exemplo prático simples [/questions/750486/javascript-closure-inside-loops-simple-practical-example] 39 respostas Tenho certeza de que meu problema se baseia na ...

3 a resposta

É possível que o Scrapy obtenha texto sem formatação diretamente dos dados brutos em html, em vez de usar os seletores xPat

Por exemplo scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content então, eu tenho os seguintes códigos html brutos: <div id="content"> <h2>Welcome to Scrapy</h2> <h3>What is Scrapy?</h3> ...

9 a resposta

Como arquivar um site inteiro para visualização offline?

Na verdade, queimamos cópias estáticas / arquivadas de nossos sites asp.net para clientes muitas vezes. Nós usamos WebZip [http://www.spidersoft.com/] até agora, mas tivemos problemas intermináveis com falhas, as páginas baixadas não foram ...

6 a resposta

Detectando rastreadores da Web honestos

Gostaria de detectar (no lado do servidor) quais solicitações são de bots. Eu não me importo com bots maliciosos neste momento, apenas aqueles que estão se saindo bem. Eu já vi algumas abordagens que envolvem principalmente a correspondência da ...

3 a resposta

xiste alguma estrutura de rastreador da web em script java [fechada]

Existe alguma estrutura de rastreador da Web JavaScript?

1 a resposta

Crawler script php

Eu peguei um pedaço de script aqui para rastrear um site, colocá-lo no meu servidor e funcionar. O único problema é que, se eu tentar rastrear, defina a profundidade acima de 4, não funcionará. Eu estou querendo saber se devido à falta de ...

9 a resposta

Criando um rastreador da Web

Me deparei com uma pergunta da entrevista "Se você estivesse projetando um rastreador da Web, como evitaria entrar em loops infinitos?" E estou tentando responde Como tudo começa do começo. Digamos que o Google tenha começado com ...