Por que é que aumenta a multiplicação de matrizes mais lenta que a minha?

Eu implementei uma multiplicação de matriz comboost::numeric::ublas::matrix (Vejomeu código de impulso completo e funcional)

Result result = read ();

boost::numeric::ublas::matrix<int> C;
C = boost::numeric::ublas::prod(result.A, result.B);

e outro com o algoritmo padrão (vejacódigo padrão completo):

vector< vector<int> > ijkalgorithm(vector< vector<int> > A, 
                                    vector< vector<int> > B) {
    int n = A.size();

    // initialise C with 0s
    vector<int> tmp(n, 0);
    vector< vector<int> > C(n, tmp);

    for (int i = 0; i < n; i++) {
        for (int k = 0; k < n; k++) {
            for (int j = 0; j < n; j++) {
                C[i][j] += A[i][k] * B[k][j];
            }
        }
    }
    return C;
}

É assim que eu testo a velocidade:

time boostImplementation.out > boostResult.txt
diff boostResult.txt correctResult.txt

time simpleImplementation.out > simpleResult.txt
diff simpleResult.txt correctResult.txt

Ambos os programas lêem um arquivo de texto embutido em código que contém duas matrizes de 2000 x 2000. Ambos os programas foram compilados com estas bandeiras:

g++ -std=c++98 -Wall -O3 -g $(PROBLEM).cpp -o $(PROBLEM).out -pedantic

Eu tenho15 segundos&nbsp;para minha implementação e mais4 minutos&nbsp;para a implementação do boost!

edit: Depois de compilá-lo com

g++ -std=c++98 -Wall -pedantic -O3 -D NDEBUG -DBOOST_UBLAS_NDEBUG library-boost.cpp -o library-boost.out

Eu tenho28,19 segundos&nbsp;para o algoritmo ikj e60,99 segundos&nbsp;para Boost. Então o Boost ainda é consideravelmente mais lento.

Por que o impulso é muito mais lento que a minha implementação?