Questões de benchmarking multi-threading

Eu escrevi um código que gera aleatoriamente duas matrizes das dimensões 2x2 até 50x50. Então, estou gravando o tempo necessário para cada multiplicação de matrizes das dimensões 2 a 50. Registro esse tempo 100 vezes para obter uma boa média para cada caso 2 -50. O programa inicia multiplicando as matrizes sequencialmente e registra o tempo médio de execução em um arquivo csv. Em seguida, ele passa para a multiplicação de matrizes paralelas usando pthreads e registra os tempos médios de execução em um arquivo csv separado. Meu problema é que o tempo médio de execução para a multiplicação seqüencial é muito menor que a execução paralela. Para uma matriz de tamanho 50, a multiplicação sequencial leva 500 microssegundos e a multiplicação paralela leva 2500 microssegundos. Esse é um problema devido a como estou temporizando o código? Ou minha implementação de threads não funciona muito bem e faz com que o código demore mais para ser executado? Estou iniciando o cronômetro após a geração das matrizes e interrompendo-o após a junção de todos os threads. O código do encadeamento foi originalmente escrito para duas matrizes de tamanho irregular, por isso implementa um algoritmo de balanceamento de carg

#include <iostream>
#include <fstream>
#include <string>
#include <sstream>
#include <algorithm>
#include  <vector>
#include <stdlib.h>
#include <pthread.h>
#include <cstdlib>
#include <ctime>
#include <sys/time.h>
#include <chrono>
#include <unistd.h>

using namespace std;
int n,i,j,t,k,l,MAX;
float randomnum,sum1, avg;
float matA[100][100];
float matB[100][100];
float matC[100][100];
struct Loading
    int r;
    int c;
    int n;
    int m;

// threads
pthread_t threads[100] = { 0 };

// indexes
int indexes[100] = {0};

// load balancing
Loading loads[100] = { 0 };

// for printing in thread
pthread_mutex_t M;

// run thread
void* multi(void* arg)
    int index = *((int*)(arg));
    Loading load = loads[index];
    int i = 0;
    int j = 0;
    int k = 0;
    int istart = load.r;
    int jstart = load.c;

     // cout << "thread #" << index << " pid: " << getpid() << " starting " << " row " << istart << " col "  << jstart << endl;

    // logic to balance loads amongst threads using for loop
    int n = load.n;
    for (i = istart; i < MAX; i++)

        for (j =jstart;n > 0 && j < MAX; j++,n--)
            for (k = 0; k < MAX; k++)
                matC[i][j] += matA[i][k] * matB[k][j];

            //cout << "row " << i << " col "<< j << " value " << matC[i][j] << endl;

        jstart = 0;

        if (n == 0)
          // cout << "thread #" << index << " pid: " << getpid() << " has completed " << endl;
           return 0;


    return 0;

int num_threads = 0;

int main()

pthread_mutex_init(&M, NULL);

srand ( time(NULL) );

//for (n=2; n<4; n++) {
ofstream myfile;
    // ("/home/gage/Desktop/timing/seqrecord.csv"); ("seqrecord.csv");
      myfile << "testtowork\n";

for (n=2; n<50; n++){
    MAX =n;
    myfile << n <<","; 
  for (int i = 0; i < MAX; i++) {
        for (int j = 0; j < MAX; j++) {
            matA[i][j] = ((float(rand()) / float(RAND_MAX)) * (100 - -50)) + -50;
            matB[i][j] = ((float(rand()) / float(RAND_MAX)) * (100 - -50)) + -50;
for(t=0; t<101; t++){
 //clock_t startTime = clock();
auto start = chrono::steady_clock::now();
  for (i = 0; i < MAX; ++i)
for (j = 0; j < MAX; ++j)
for (k = 0; k < MAX; ++k)
matC[i][j] += matA[i][k] * matB[k][j];

//int stop_s=clock();
auto end = chrono::steady_clock::now();
//cout << double( clock() - startTime ) / (double)CLOCKS_PER_SEC/1000000000<< " milli-seconds." << endl;
//cout << chrono::duration_cast<chrono::microseconds>(end - start).count() <<endl;
myfile << chrono::duration_cast<chrono::microseconds>(end - start).count() <<",";
sum1 = sum1+chrono::duration_cast<chrono::microseconds>(end - start).count();

avg = sum1 / 100;
myfile << "Average execution" << "," << avg << "\n";
sum1 =0;
avg = 0;

// }

ofstream myfile1; ("parallel.csv");
      myfile1 << "testtowork\n";

for (n=2; n<51; n++)
MAX = n;
num_threads =n;
 myfile1 << n <<","; 
  for (int i = 0; i < MAX; i++) {
        for (int j = 0; j < MAX; j++) {
            matA[i][j] = ((float(rand()) / float(RAND_MAX)) * (100 - -50)) + -50;
            matB[i][j] = ((float(rand()) / float(RAND_MAX)) * (100 - -50)) + -50;
           for(t=0; t<101; t++){
         //clock_t startTime = clock();
            auto start = chrono::steady_clock::now();
         /,/ calculade load balancing

        // cout << "calculation load balancing" << endl;

            double nwhole = (double)MAX_THREADS / num_threads;
            double last = 0;
            double sum = 0;
            int k = 0;

            loads[k].r = 0;
            loads[k].c = 0;
            loads[k].n = 0;

            while (k < num_threads)

                sum = sum + nwhole;

                loads[k].n = (int)sum - (int)last;

                // check last length
                if(k == num_threads-1 && sum != MAX_THREADS)
                    loads[k].n=(int)sum - (int)last;

                // display result
              //  cout << (int)last << " to " << (int)sum << " length: " << (int)sum - int(last) << endl;


                if(k < num_threads)
                loads[k].r = ((int)sum) / MAX;
                loads[k].c = ((int)sum) % MAX;

                last = sum;


        //cout << "making threads" << endl;

        void* exit_status;

        int rc;

        for( i = 0; i < num_threads ; i++ ) {
         //     cout << "main() : creating thread, " << i << endl;
              indexes[i] = i;
              rc = pthread_create(&threads[i], NULL, multi, (void *)&indexes[i]);

              if (rc) {
           //      cout << "Error:unable to create thread," << rc << endl;

        // wait for threads to end
        for (j = 0; j < num_threads; j++)

            pthread_join(threads[j], &exit_status);

auto end = chrono::steady_clock::now();
//cout << double( clock() - startTime ) / (double)CLOCKS_PER_SEC/1000000000<< " milli-seconds." << endl;
//cout << chrono::duration_cast<chrono::microseconds>(end - start).count() <<endl;
myfile1 << chrono::duration_cast<chrono::microseconds>(end - start).count() <<",";
sum1 = sum1+chrono::duration_cast<chrono::microseconds>(end - start).count();
 avg = sum1 / 100;
myfile1 << "Average" << "," << avg << "\n";
sum1 =0;
avg = 0;


return 0;