Przyspieszenie zagnieżdżone dla pętli z potęgowaniem elementów

Pracuję nad dużym kodem i potrzebuję przyspieszenia określonego jego fragmentu. StworzyłemMWE pokazane poniżej:

import numpy as np
import time

def random_data(N):
    # Generate some random data.
    return np.random.uniform(0., 10., N).tolist()

# Lists that contain all the data.
list1 = [random_data(10) for _ in range(1000)]
list2 = [random_data(1000), random_data(1000)]

# Start taking the time.
tik = time.time()

list4 = []
# Loop through all elements in list1.
for elem in list1:

    list3 = []
    # Loop through elements in list2.
    for elem2 in zip(*list2):

        A = np.exp(-0.5*((elem[0]-elem2[0])/elem[3])**2)
        B = np.exp(-0.5*((elem[1]-elem2[1])/elem[3])**2)

    # Sum elements in list3 and append result to list4.
    sum_list3 = sum(list3) if sum(list3)>0. else 1e-06

# Print the elapsed time.
print time.time()-tik

Dziwny formatlist1 ilist2 jest tak, ponieważ tak otrzymuje ten blok kodu.

Oczywistą częścią, w której większość czasu jest spędzana, jest rekurencyjne obliczanieA iB warunki.

Czy jest jakiś sposób, żeby przyspieszyć ten blok kodu bez konieczności jego równoległego (wypróbowałem to wcześniej i to dało midużo kłopotów)? Jestem otwarty na użycie dowolnego pakietu,numpy, scipy, itp ..


Jest to wynikiem zastosowania optymalizacji abarnert, a także zalecenie Jaime'a, aby wykonać tylko jedno potęgowanie. Zoptymalizowana funkcja jest średnio ~ 60 razy szybsza w moim systemie.

import numpy as np
import timeit

def random_data(N):
    return np.random.uniform(0., 10., N).tolist()

# Lists that contain all the data.
list1 = [random_data(10) for _ in range(1000)]
list2 = [random_data(1000), random_data(1000)]

array1 = np.array(list1)
array2 = np.array(zip(*list2))

# Old non-optimezed function.
def func1():
    list4 = []
    # Process all elements in list1.
    for elem in list1:
        # Process all elements in list2.
        list3 = []
        for elem2 in zip(*list2):
            A = np.exp(-0.5*((elem[0]-elem2[0])/elem[3])**2)
            B = np.exp(-0.5*((elem[1]-elem2[1])/elem[3])**2)
        # Sum elements in list3 and append result to list4.
        sum_list3 = sum(list3) if sum(list3)>0. else 1e-06

# New optimized function.
def func2():
    list4 = []
    # Process all elements in list1.
    for elem in array1:

        # Broadcast over elements in array2.
        A = -0.5*((elem[0]-array2[:,0])/elem[3])**2
        B = -0.5*((elem[1]-array2[:,1])/elem[3])**2
        array3 = np.exp(A+B)

        # Sum elements in array3 and append result to list4.
        sum_list3 = max(array3.sum(), 1e-10)

# Get time for both functions.
func1_time = timeit.timeit(func1, number=10)
func2_time = timeit.timeit(func2, number=10)

# Print hom many times faster func2 is versus func1.
print func1_time/func2_time

