Pula Gevent z zagnieżdżonymi żądaniami sieciowymi

Question

Mar 10, 2013, 02:23 PM

Pula Gevent z zagnieżdżonymi żądaniami sieciowymi

Staram się organizować pulę z maksymalnie 10 jednoczesnymi pobraniami. Funkcja powinna pobrać podstawowy adres URL, a następnie przeanalizować wszystkie adresy URL na tej stronie i pobrać każdy z nich, ale CAŁKOWITA liczba równoczesnych pobrań nie powinna przekraczać 10.

from lxml import etree 
import gevent
from gevent import monkey, pool
import requests

monkey.patch_all()
urls = [
    'http://www.google.com', 
    'http://www.yandex.ru', 
    'http://www.python.org', 
    'http://stackoverflow.com',
    # ... another 100 urls
    ]

LINKS_ON_PAGE=[]
POOL = pool.Pool(10)

def parse_urls(page):
    html = etree.HTML(page)
    if html:
        links = [link for link in html.xpath("//a/@href") if 'http' in link]
    # Download each url that appears in the main URL
    for link in links:
        data = requests.get(link)
        LINKS_ON_PAGE.append('%s: %s bytes: %r' % (link, len(data.content), data.status_code))

def get_base_urls(url):
    # Download the main URL
    data = requests.get(url)
    parse_urls(data.content)

Jak mogę zorganizować go tak, aby działał równolegle, ale aby zachować ogólny globalny limit puli dla WSZYSTKICH żądań internetowych?