Problem z użyciem blokady z multiprocessing.Pool: błąd wytrawiania
Buduję moduł Pythona, który wyodrębnia znaczniki z dużego korpusu tekstu i chociaż jego wyniki są wysokiej jakości, wykonuje się bardzo powoli. Próbuję przyspieszyć proces za pomocą wieloprocesorowości i to też działało, dopóki nie próbowałem wprowadzić blokady, aby tylko jeden proces łączył się z naszą bazą danych na raz. Przez całe życie nie potrafię zrozumieć, jak to zrobić - mimo wielu poszukiwań i ulepszeń wciąż dostajęPicklingError: Can't pickle <type 'thread.lock'>: attribute lookup thread.lock failed
. Oto obraźliwy kod - działał dobrze, dopóki nie próbowałem przekazać obiektu blokady jako argumentuf
.
def make_network(initial_tag, max_tags = 2, max_iter = 3):
manager = Manager()
lock = manager.Lock()
pool = manager.Pool(8)
# this is a very expensive function that I would like to parallelize
# over a list of tags. It involves a (relatively cheap) call to an external
# database, which needs a lock to avoid simultaneous queries. It takes a list
# of strings (tags) as its sole argument, and returns a list of sets with entries
# corresponding to the input list.
f = partial(get_more_tags, max_tags = max_tags, lock = lock)
def _recursively_find_more_tags(tags, level):
if level >= max_iter:
raise StopIteration
new_tags = pool.map(f, tags)
to_search = []
for i, s in zip(tags, new_tags):
for t in s:
joined = ' '.join(t)
print i + "|" + joined
to_search.append(joined)
try:
return _recursively_find_more_tags(to_search, level+1)
except StopIteration:
return None
_recursively_find_more_tags([initial_tag], 0)