Python, Mechanize - запрос запрещен robots.txt даже после set_handle_robots и add_headers
Я сделал веб-сканер, который получает все ссылки до 1-го уровня страницы, и от них он получает все ссылки и текст, а также ссылки на изображения и т. Д. вот целый код:
import urllib
import re
import time
from threading import Thread
import MySQLdb
import mechanize
import readability
from bs4 import BeautifulSoup
from readability.readability import Document
import urlparse
url = ["http://sparkbrowser.com"]
i=0
while i