Velocidade de cython e numpy

Estou usando o cython para um cálculo de correlação no meu programa python. Eu tenho dois conjuntos de dados de áudio e preciso saber a diferença de tempo entre eles. O segundo conjunto é cortado com base nos tempos de início e, em seguida, deslizou pelo primeiro conjunto. Existem dois loops: um desliza o conjunto e o laço interno calcula a correlação nesse ponto. Esse método funciona muito bem e é preciso o suficiente.

O problema é que com python puro isso leva mais de um minuto. Com o meu código cython, demora cerca de 17 segundos. Isso ainda é demais. Você tem alguma sugestão de como acelerar este código:

import numpy as np
cimport numpy as np

cimport cython

FTYPE = np.float
ctypedef np.float_t FTYPE_t

@cython.boundscheck(False)
def delay(np.ndarray[FTYPE_t, ndim=1] f, np.ndarray[FTYPE_t, ndim=1] g):
    cdef int size1 = f.shape[0]
    cdef int size2 = g.shape[0]
    cdef int max_correlation = 0
    cdef int delay = 0
    cdef int current_correlation, i, j

    # Move second data set frame by frame
    for i in range(0, size1 - size2):
        current_correlation = 0

        # Calculate correlation at that point
        for j in range(size2):
            current_correlation += f[<unsigned int>(i+j)] * g[j]

        # Check if current correlation is highest so far
        if current_correlation > max_correlation:
            max_correlation = current_correlation
            delay = i

    return delay

questionAnswers(3)

yourAnswerToTheQuestion