Etiqueta de raspagem na Web [fechada]

Question

Jan 07, 2010, 05:56 PM

Etiqueta de raspagem na Web [fechada]

Estou pensando em escrever um aplicativo de raspagem da Web simples para extrair informações de um site que parece não proibir isso especificamente.

Eu verifiquei outras alternativas (por exemplo, RSS, serviço da web) para obter essas informações, mas não há nenhuma disponível neste estágio.

Apesar disso, eu também desenvolvi / mantive alguns sites e, portanto, percebo que, se a raspagem da Web for feita de forma ingênua / avidamente, isso pode tornar as coisas mais lentas para outros usuários e geralmente se tornar um incômodo.

Então, que etiqueta está envolvida em termos de:

Número de solicitações por segundo / minuto / hora.Conteúdo do Agente do Usuário HTTP.Conteúdo do referenciador HTTP.Configurações de cache HTTP.Tamanho do buffer para arquivos / recursos maiores.Questões legais e de licenciamento.Boas ferramentas ou abordagens de design a serem usadas.Robots.txt, isso é relevante para a raspagem da Web ou apenas para rastreadores / aranhas?Compactação como GZip em solicitações.

Atualizar

Encontrei esta questão relevante no Meta:Etiqueta da pilha de escaneamento de tela. A resposta de Jeff Atwood tem algumas recomendações úteis.

Outras questões relacionadas ao StackOverflow:

Opções para raspagem de html