Python, Mechanize - solicitação não permitida pelo robots.txt mesmo depois de set_handle_robots e add_headers

Question

Aug 07, 2013, 09:11 AM

Python, Mechanize - solicitação não permitida pelo robots.txt mesmo depois de set_handle_robots e add_headers

Eu fiz um web crawler que recebe todos os links até o primeiro nível de página e deles obtém todos os links e texto, além de imagelinks e alt. aqui está o código inteiro:

import urllib
import re
import time
from threading import Thread
import MySQLdb
import mechanize
import readability
from bs4 import BeautifulSoup
from readability.readability import Document
import urlparse

url = ["http://sparkbrowser.com"]

i=0

while i<len(url):

    counterArray = [0]

    levelLinks = []
    linkText = ["homepage"]
    levelLinks = []

    def scraper(root,steps):
        urls = [root]
        visited = [root]
        counter = 0
        while counter < steps:
            step_url = scrapeStep(urls)
            urls = []
            for u in step_url:
                if u not in visited:
                    urls.append(u)
                    visited.append(u)
                    counterArray.append(counter +1)
            counter +=1
        levelLinks.append(visited)
        return visited

    def scrapeStep(root):
        result_urls = []
        br = mechanize.Browser()
        br.set_handle_robots(False)
        br.set_handle_equiv(False)
        br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

        for url in root:
            try:
                br.open(url)

                for link in br.links():
                    newurl = urlparse.urljoin(link.base_url, link.url)
                    result_urls.append(newurl)
                    #levelLinks.append(newurl)
            except:
                print "error"
        return result_urls


    scraperOut = scraper(url[i],1)

    for sl,ca in zip(scraperOut,counterArray):
        print "\n\n",sl," Level - ",ca,"\n"

        #Mechanize
        br = mechanize.Browser()
        page = br.open(sl)
        br.set_handle_robots(False)
        br.set_handle_equiv(False)
        br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
        #BeautifulSoup
        htmlcontent = page.read()
        soup = BeautifulSoup(htmlcontent)


        for linkins in br.links(text_regex=re.compile('^((?!IMG).)*Tudo está funcionando muito bem até meu rastreador chegar a um dosfacebook links que ele não pode ler, mas ele me dá erro
httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
para a linha 68 que é:page = br.open(sl)
E eu não sei porque, porque, como você pode ver, eu configurei mecanizarset_handle_robots eadd_headers opções.
Eu não sei porque é que, mas eu notei que estou recebendo esse erro parafacebook links, neste casofacebook.com/sparkbrowser e google para.
Qualquer ajuda ou conselho é bem-vindo.
Felicidades)):
            newesturl = urlparse.urljoin(linkins.base_url, linkins.url)
            linkTxt = linkins.text
            print newesturl,linkTxt

        for linkwimg in soup.find_all('a', attrs={'href': re.compile("^http://")}):
            imgSource = linkwimg.find('img')
            if linkwimg.find('img',alt=True):
                imgLink = linkwimg['href']
                #imageLinks.append(imgLink)
                imgAlt = linkwimg.img['alt']
                #imageAlt.append(imgAlt)
                print imgLink,imgAlt
            elif linkwimg.find('img',alt=False):
                imgLink = linkwimg['href']
                #imageLinks.append(imgLink)
                imgAlt = ['No Alt']
                #imageAlt.append(imgAlt)
                print imgLink,imgAlt

    i+=1

Tudo está funcionando muito bem até meu rastreador chegar a um dosfacebook links que ele não pode ler, mas ele me dá erro

httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

para a linha 68 que é:page = br.open(sl)

E eu não sei porque, porque, como você pode ver, eu configurei mecanizarset_handle_robots eadd_headers opções.

Eu não sei porque é que, mas eu notei que estou recebendo esse erro parafacebook links, neste casofacebook.com/sparkbrowser e google para.

Qualquer ajuda ou conselho é bem-vindo.

Felicidades

questionAnswers(1)

Perguntas populares

0 a resposta

O serviço da Web gerado com o `java2wsdl` inclui API de mais de uma classe Java?

0 a resposta

Limitando o número de processos no python de multiprocessamento

0 a resposta

Dependência Propriedade dependente de outro

0 a resposta

Posso desligar uma chamada programaticamente no android?

0 a resposta

Small EditText tem um setError com muitas linhas

Você é muito ativo! É ótimo!

Python, Mechanize - solicitação não permitida pelo robots.txt mesmo depois de set_handle_robots e add_headers

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares