Problem z użyciem blokady z multiprocessing.Pool: błąd wytrawiania

Question

Jul 31, 2013, 03:48 AM

Problem z użyciem blokady z multiprocessing.Pool: błąd wytrawiania

Buduję moduł Pythona, który wyodrębnia znaczniki z dużego korpusu tekstu i chociaż jego wyniki są wysokiej jakości, wykonuje się bardzo powoli. Próbuję przyspieszyć proces za pomocą wieloprocesorowości i to też działało, dopóki nie próbowałem wprowadzić blokady, aby tylko jeden proces łączył się z naszą bazą danych na raz. Przez całe życie nie potrafię zrozumieć, jak to zrobić - mimo wielu poszukiwań i ulepszeń wciąż dostajęPicklingError: Can't pickle <type 'thread.lock'>: attribute lookup thread.lock failed. Oto obraźliwy kod - działał dobrze, dopóki nie próbowałem przekazać obiektu blokady jako argumentuf.

def make_network(initial_tag, max_tags = 2, max_iter = 3):
    manager = Manager()
    lock = manager.Lock()
    pool = manager.Pool(8)

    # this is a very expensive function that I would like to parallelize 
    # over a list of tags. It involves a (relatively cheap) call to an external
    # database, which needs a lock to avoid simultaneous queries. It takes a list
    # of strings (tags) as its sole argument, and returns a list of sets with entries
    # corresponding to the input list.
    f = partial(get_more_tags, max_tags = max_tags, lock = lock) 

    def _recursively_find_more_tags(tags, level):
        if level >= max_iter:
            raise StopIteration
        new_tags = pool.map(f, tags)
        to_search = []
        for i, s in zip(tags, new_tags):
            for t in s:
                joined = ' '.join(t)
                print i + "|" + joined
                to_search.append(joined)
        try:
            return _recursively_find_more_tags(to_search, level+1)
        except StopIteration:
            return None

    _recursively_find_more_tags([initial_tag], 0)