Python, Mechanize - запрос запрещен robots.txt даже после set_handle_robots и add_headers

Question

Aug 07, 2013, 07:11 AM

Python, Mechanize - запрос запрещен robots.txt даже после set_handle_robots и add_headers

Я сделал веб-сканер, который получает все ссылки до 1-го уровня страницы, и от них он получает все ссылки и текст, а также ссылки на изображения и т. Д. вот целый код:

import urllib
import re
import time
from threading import Thread
import MySQLdb
import mechanize
import readability
from bs4 import BeautifulSoup
from readability.readability import Document
import urlparse

url = ["http://sparkbrowser.com"]

i=0

while i

Python, Mechanize - запрос запрещен robots.txt даже после set_handle_robots и add_headers

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Python, Mechanize - запрос запрещен robots.txt даже после set_handle_robots и add_headers

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы