Resultados da pesquisa a pedido "web-crawler"

2 a resposta

O Google ignora o que está depois do fragmento de hash (#) enquanto rastreia nosso site?

Estamos usando as informações após o fragmento de hash para exibir páginas diferentes usando JavaScript, para não forçar o navegador a carregar a página inteira novamente. Por exemplo, um link direto para a página pode ser assim (book_id / ...

2 a resposta

Preciso escrever um rastreador da web para um agente de usuário específico

Preciso escrever um rastreador da Web e quero rastrear usando um agente de usuário conhecido. Por exemplo, quero que meu rastreador atue como um iphone para rastrear o site móvel de um site e depois rastrear novamente usando o agente Mozilla PC, ...

2 a resposta

Nutch Nenhum agente listado em 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

1 a resposta

O envio do formulário Mechanze causa 'Erro de declaração' quando uma resposta .read () é tentada

Estou escrevendo um programa de rastreamento na Web com python e não consigo fazer login usando mecanizar. O formulário no site se parece com: <form method="post" action="PATLogon"> <h2 ...

3 a resposta

Clique em um botão no Scrapy

Estou usando o Scrapy para rastrear uma página da web. Algumas das informações necessárias apenas aparecem quando você clica em um determinado botão (é claro que também aparece no código HTML depois de clicar). Eu descobri que o Scrapy pode ...

12 a resposta

omo detectar bots de mecanismo de pesquisa com ph

Como é possível detectar os bots dos mecanismos de pesquisa usando php?

2 a resposta

Parar bots abusivos de rastrear?

Isso é uma boa ideia? http: //browsers.garykeith.com/stream.asp? RobotsTXT [http://browsers.garykeith.com/stream.asp?RobotsTXT] O que significa rastreamento abusivo? Como isso é ruim para o meu site?

3 a resposta

Devo criar um pipeline para salvar arquivos com scrapy?

Preciso salvar um arquivo (.pdf), mas não tenho certeza de como fazê-lo. Preciso salvar .pdfs e armazená-los de forma que eles sejam organizados em diretórios, da mesma forma que são armazenados no site em que estou raspand Pelo que consigo ...

1 a resposta

Para que serve o shebang / hashbang?

Existe outro uso para shebangs / hashbangs além de tornar o conteúdo AJAX rastreável para o Google? Ou é isso?

4 a resposta

Salve todos os arquivos de imagem de um site

Estou criando um aplicativo pequeno para mim, onde executo um script Ruby e salvo todas as imagens do meu blog. Não consigo descobrir como salvar os arquivos de imagem depois de identificá-los. Qualquer ajuda seria muito apreciad require ...