Resultados da pesquisa a pedido "web-crawler"
O Google ignora o que está depois do fragmento de hash (#) enquanto rastreia nosso site?
Estamos usando as informações após o fragmento de hash para exibir páginas diferentes usando JavaScript, para não forçar o navegador a carregar a página inteira novamente. Por exemplo, um link direto para a página pode ser assim (book_id / ...
Preciso escrever um rastreador da web para um agente de usuário específico
Preciso escrever um rastreador da Web e quero rastrear usando um agente de usuário conhecido. Por exemplo, quero que meu rastreador atue como um iphone para rastrear o site móvel de um site e depois rastrear novamente usando o agente Mozilla PC, ...
Nutch Nenhum agente listado em 'http.agent.name'
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...
O envio do formulário Mechanze causa 'Erro de declaração' quando uma resposta .read () é tentada
Estou escrevendo um programa de rastreamento na Web com python e não consigo fazer login usando mecanizar. O formulário no site se parece com: <form method="post" action="PATLogon"> <h2 ...
Clique em um botão no Scrapy
Estou usando o Scrapy para rastrear uma página da web. Algumas das informações necessárias apenas aparecem quando você clica em um determinado botão (é claro que também aparece no código HTML depois de clicar). Eu descobri que o Scrapy pode ...
omo detectar bots de mecanismo de pesquisa com ph
Como é possível detectar os bots dos mecanismos de pesquisa usando php?
Parar bots abusivos de rastrear?
Isso é uma boa ideia? http: //browsers.garykeith.com/stream.asp? RobotsTXT [http://browsers.garykeith.com/stream.asp?RobotsTXT] O que significa rastreamento abusivo? Como isso é ruim para o meu site?
Devo criar um pipeline para salvar arquivos com scrapy?
Preciso salvar um arquivo (.pdf), mas não tenho certeza de como fazê-lo. Preciso salvar .pdfs e armazená-los de forma que eles sejam organizados em diretórios, da mesma forma que são armazenados no site em que estou raspand Pelo que consigo ...
Para que serve o shebang / hashbang?
Existe outro uso para shebangs / hashbangs além de tornar o conteúdo AJAX rastreável para o Google? Ou é isso?
Salve todos os arquivos de imagem de um site
Estou criando um aplicativo pequeno para mim, onde executo um script Ruby e salvo todas as imagens do meu blog. Não consigo descobrir como salvar os arquivos de imagem depois de identificá-los. Qualquer ajuda seria muito apreciad require ...