Resultados da pesquisa a pedido "web-crawler"

3 a resposta

Raspagem da Web com R

Estou com alguns problemas para extrair dados de um site. Primeiro, não tenho muita experiência com raspagem na web ... Meu plano pretendido é raspar alguns dados usando R no seguinte ...

5 a resposta

Rastreador da Web que pode interpretar JavaScript [fechado]

Quero escrever um rastreador da Web que possa interpretar JavaScript. Basicamente, é um programa em Java ou PHP que usa uma URL como entrada e gera a árvore DOM, semelhante à saída na janela HTML do Firebug. O melhor exemplo é Kayak.com, onde ...

1 a resposta

redirecionar todos os bots usando o htaccess apache

O que reescrever .htaccess devo usar para detectar bots conhecidos, por exemplo, os grandes: altavista, google, bing, yahoo Eu sei que posso verificar seus ips ou hosts, mas existe uma maneira melhor?

6 a resposta

Download de texto da Wikipedia

Estou procurando baixar o texto completo da Wikipedia para o meu projeto da faculdade. Preciso escrever minha própria aranha para fazer o download ou existe um conjunto de dados público da Wikipedia disponível online? Para lhe dar uma visão ...

3 a resposta

Qual é a maneira mais fácil de executar scripts python em um servidor em nuvem?

Eu tenho um script python de rastreamento da Web que leva horas para ser concluído e é inviável para ser executado totalmente na minha máquina local. Existe uma maneira conveniente de implantar isso em um servidor web simples? O script ...

2 a resposta

Splinter ou Selenium: podemos obter a página html atual depois de clicar em um botão?

Estou tentando rastrear o site "http://everydayhealth.com [http://everydayhealth.com]". Porém, descobri que a página será renderizada dinamicamente. Então, quando clicar no botão" Mais ", novas notícias serão exibidas. No entanto, o uso de lascas ...

1 a resposta

Limite de profundidade do conjunto irregular por domínios permitidos

Estou rastreando 6 domínios permitidos diferentes e gostaria de limitar a profundidade de 1 domínio. Como limitaria a profundidade desse domínio 1 em scrapy? Ou seria possível rastrear apenas uma profundidade de domínios externos?

2 a resposta

Como obter conteúdo de rastreamento no Crawljax

Rastreei a página dinâmica usando o Crawljax. Eu posso obter o ID, status e dom atuais do rastreamento. mas não consigo obter o conteúdo do site .. Alguém me ajuda? CrawljaxConfigurationBuilder builder ...

1 a resposta

Rastreador da Web para extrair dos elementos da lista

Estou tentando extrair de<li> marca as datas e as armazena em um arquivo do Excel. <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>Código: import urllib2 import os from datetime import datetime import ...

4 a resposta

Spider um site e retorne apenas URLs

Estou procurando uma maneira de pseudo-aranha em um site. A chave é que eu realmente não quero o conteúdo, mas uma simples lista de URIs. Posso me aproximar razoavelmente dessa idéia comWget [http://www.gnu.org/software/wget/] usando o--spider ...