Resultados da pesquisa a pedido "web-crawler"

1 a resposta

Como rastrear milhares de páginas usando scrapy?

Estou olhando para rastrear milhares de páginas e preciso de uma solução. Todo site tem seu próprio código html - todos eles são sites únicos. Nenhum feed de dados ou API limpo está disponível. Espero carregar os dados capturados em algum tipo de ...

3 a resposta

Raspagem da Web com R

Estou com alguns problemas para extrair dados de um site. Primeiro, não tenho muita experiência com raspagem na web ... Meu plano pretendido é raspar alguns dados usando R no seguinte ...

2 a resposta

Como obter conteúdo de rastreamento no Crawljax

Rastreei a página dinâmica usando o Crawljax. Eu posso obter o ID, status e dom atuais do rastreamento. mas não consigo obter o conteúdo do site .. Alguém me ajuda? CrawljaxConfigurationBuilder builder ...

10 a resposta

Como solicitar ao Google que rastreie novamente meu site? [fechadas

Alguém sabe como solicitar ao Google que rastreie novamente um site? Se possível, isso não deve durar meses. Meu site está mostrando um título antigo nos resultados de pesquisa do Google. Como posso mostrá-lo com o título e a descrição corretos?

4 a resposta

Banco de dados para rastreador da web em python?

Olá, estou escrevendo um rastreador da Web em python para extrair artigos de notícias de sites de notícias como nytimes.com. Eu quero saber o que seria um bom db para usar como back-end para este projeto? Desde já, obrigado!

9 a resposta

Como arquivar um site inteiro para visualização offline?

Na verdade, queimamos cópias estáticas / arquivadas de nossos sites asp.net para clientes muitas vezes. Nós usamos WebZip [http://www.spidersoft.com/] até agora, mas tivemos problemas intermináveis com falhas, as páginas baixadas não foram ...

1 a resposta

Como controlar a ordem de rendimento no Scrapy

Socorro! Lendo o seguinte código incorreto e o resultado do rastreador. Quero rastrear alguns dados dehttp://china.fathom.info/data/data.json [http://china.fathom.info/data/data.json], e somenteScrapyé permitido. Mas não sei como controlar a ...

1 a resposta

Rastreador da Web para extrair dos elementos da lista

Estou tentando extrair de<li> marca as datas e as armazena em um arquivo do Excel. <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>Código: import urllib2 import os from datetime import datetime import ...

4 a resposta

Preciso de uma biblioteca poderosa do Scraper da Web [fechada]

Preciso de uma poderosa biblioteca de raspadores da Web para extrair conteúdo da Web. Isso pode ser pago ou gratuito, ambos estarão bem para mim. Sugira-me uma biblioteca ou uma maneira melhor de extrair os dados e armazenar no meu banco de dados ...

2 a resposta

O rastreador do Facebook atualmente interpreta o javascript antes de analisar o DOM?

O link a seguir parece dizer que não pode:Como o Facebook Sharer seleciona Imagens e outros metadados ao compartilhar meu URL? [https://stackoverflow.com/questions/1138460/how-does-facebook-sharer-select-images] Mas eu queria saber se ainda é o ...