Resultados da pesquisa a pedido "web-crawler"
Como rastrear dados de check-in do quadrangular?
É possível rastrear dados de check-in do quadrangular de maneira gananciosa? (mesmo que eu não tenha amizade com todos os usuários) Assim como rastrear mensagens do Twitter disponíveis publicamente. Se você tiver alguma experiência ou sugestão, ...
Ruby + Anemone Web Crawler: regex para corresponder a URLs que terminam em uma série de dígitos
Suponha que eu estivesse tentando rastrear um site e pular uma página que terminasse assim: http: //HIDDENWEBSITE.com/anonimize/index.php? page = press_and_news & subpage ...
Envie dados via formulário da Web e extraia os resultados
Meu nível python é Iniciante. Eu nunca escrevi um raspador ou rastreador da Web. Eu escrevi um código python para conectar-se a uma API e extrair os dados que eu quero. Mas, para alguns dados extraídos, quero obter o sexo do autor. Encontrei ...
Se eu fizer tudo na minha página com o Ajax, como posso fazer a Otimização de Mecanismos de Busca?
Como é a relação entre rastreadores e aplicativos ajax? Os rastreadores ou navegadores da Web leem metatags criadas dinamicamente? Eu pensei sobre adicionando âncoras à páginacriando links permanentes para o conteúdo adicionar dinamicamente ...
Obtenha uma lista de URLs de um site [fechado]
Estou implantando um site de substituição para um cliente, mas eles não querem que todas as suas páginas antigas terminem em 404. Manter a estrutura antiga do URL não foi possível porque era horrível. Estão escrevendo um manipulador 404 que ...
Como obter o código-fonte de uma página da Web em Java [duplicado]
Esta pergunta já tem uma resposta aqui: Como você baixa programaticamente uma página da Web em Java [/questions/238547/how-do-you-programmatically-download-a-webpage-in-java] 11 respostasEu só quero recuperar o código-fonte de qualquer página da ...
Erros relacionados ao Web Crawler em PHP
Estou tentando criar um rastreador da web simples usando PHP capaz de rastrear domínios .edu, desde que os URLs de origem do pa Eu usei dom html simples para implementar o rastreador, enquanto parte da lógica principal é implementada por mi ...
Como ignoro os tipos de arquivo em um rastreador da web?
Estou escrevendo um rastreador da web e quero ignorar os URLs que apontam para arquivos binários: $exclude = %w(flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 wav wmv ape aac ac3 wma aiff mpg mpeg avi mov ogg mkv ...
Como criar um rastreador Python para sites usando oauth2
Eu sou novo em programação web. Quero criar um rastreador para rastrear o gráfico social no Foursquare by Python. Eu tenho um rastreador controlado "manualmente" usando oapiv2 library. O método principal é como: def main(): CODE = "******" url ...
Usando o Nutch para rastrear uma lista de URLs especificadas
Tenho um milhão de listas de URLs para buscar. Eu uso esta lista como sementes de noz e uso o básicorasteja comando de Nutch para buscá-los. No entanto, acho que o Nutch busca automaticamente URLs que não estão na lista. Eu defino os parâmetros ...