Resultados da pesquisa a pedido "web-crawler"

1 a resposta

Fazendo meu próprio rastreador da Web em python, que mostra a ideia principal do page rank

Estou tentando criar um rastreador da web que mostre a idéia básica do page rank. E o código para mim parece bom para mim, mas retorna erros e.x. `Traceback (most recent call last): File "C:/Users/Janis/Desktop/WebCrawler/Web_crawler.py", line ...

1 a resposta

Webcrawler em Go

Estou tentando criar um rastreador da Web no Go, onde gostaria de especificar o número máximo de trabalhadores simultâneos. Todos eles estarão trabalhando enquanto houver um link para explorar na fila. Quando a fila tiver menos elementos que ...

1 a resposta

O que o cifrão significa no robots.txt

Estou curioso sobre um site e quero fazer algum rastreamento na Web no/s caminho.O seu robots.txt [http://mp.weixin.qq.com/robots.txt]: User-Agent: * Allow: /$ Allow: /debug/ Allow: /qa/ Allow: /wiki/ Allow: /cgi-bin/loginpage Disallow: /Minhas ...

5 a resposta

Rastreamento da Web distribuído usando o Apache Spark - é possível?

Uma pergunta interessante foi feita quando participei de uma entrevista sobre mineração na web. A questão era: é possível rastrear os sites usando o Apache Spark? Imaginei que isso era possível, porque suporta a capacidade de ...

1 a resposta

controlador de chamada (crawler4j-3.5) dentro do loop

Oi estou ligandocontroller dentrofor-loop, porque estou tendo mais de 100 URL, por isso estou com tudo na lista e irei iterar ecrawl Na página, defino esse URL também para setCustomData, pois não deve sair do domínio. for (Iterator<String> ...

1 a resposta

Problema de autorização com o cron crawler inserindo dados na planilha do Google usando a API do Google no Ruby

Meu projeto é rastrear determinados dados da Web e colocá-los na minha planilha do Google todas as manhãs às 9:00. E tem que obter a autorização para ler e escrever algo. É por isso que o código abaixo está localizado na parte superior. # Google ...

0 a resposta

Crawler4j com autenticação

Estou tentando executar o crawler4j em um redmine pessoal para fins de teste. Eu quero autenticar e rastrear várias folhas de profundidade no aplicativo. eu sigoeste ...

2 a resposta

Raspador da Web para formulários dinâmicos em python

Estou tentando preencher o formulário deste site http://www.marutisuzuki.com/Maruti-Price.aspx [http://www.marutisuzuki.com/Maruti-Price.aspx]. Consiste em três listas suspensas. Um é o modelo do carro, o segundo é o estado e o terceiro é a ...

2 a resposta

Extrair links para determinada seção apenas do blogspot usando BeautifulSoup

Estou tentando extrair links para determinada seção apenas do Blogspot. Mas a saída mostra que os códigos extraem todo o link dentro da página. Aqui estão os códigos: import urlparse import urllib from bs4 import BeautifulSoup url ...

2 a resposta

TypeError: não é possível usar um padrão de seqüência de caracteres em um objeto semelhante a bytes em re.findall ()

Estou tentando aprender a buscar automaticamente os URLs de uma página. No código a seguir, estou tentando obter o título da página da Web: import urllib.request import re url = "http://www.google.com" regex = '<title>(,+?)</title>' pattern = ...