Estratégias de melhoria de desempenho para VM / intérprete?
Eu escrevi uma simples VM em C, usando uma simples troca de instruções, sem nenhuma decodificação de instruções, mas o desempenho é péssimo.
Para operações aritméticas simples, a VM é cerca de 4000 vezes mais lenta que o código C nativo para as mesmas operações. Eu testei com um grupo de matrizes de comprimento de 10 milhões, o primeiro consistindo de instruções do programa, operações aleatórias + - * /, 2 matrizes contendo inteiros aleatórios e o terceiro array sendo o armazenamento de destino da operação.
Eu esperava ver uma queda de 3 a 4 vezes no desempenho aritmético, então 4000x realmente me surpreendeu. Mesmo as linguagens interpretadas mais lentas parecem oferecer maior desempenho. Então, onde estou indo errado com a minha abordagem e como posso melhorar o desempenho sem recorrer à compilação JIT para código de máquina?
A implementação é ... basicamente a mais simples que eu poderia fazer:
begin:
{
switch (*(op+(c++)))
{
case 0:
add(in1+c, in2+c, out+c); goto begin;
case 1:
sub(in1+c, in2+c, out+c); goto begin;
case 2:
mul(in1+c, in2+c, out+c); goto begin;
case 3:
div(in1+c, in2+c, out+c); goto begin;
case 4:
cout << "end of program" << endl;
goto end;
default:
cout << "ERROR!!!" << endl;
}
}
end:
ATUALIZAÇÃO: Eu estava brincando com o comprimento do programa quando notei que o QElapsedTimer que eu estava usando para o perfil estava realmente quebrado. Agora estou usando a função clock () e de acordo com ela, o goto computado está realmente sendo executado no mesmo nível do código nativo, talvez um pouco menor. Esse resultado é legítimo? Aqui está a fonte completa (é feio eu sei, é só para testar depois de tudo):
#include <QtGlobal>
#include <iostream>
#include <stdio.h>
#include <ctime>
using namespace std;
#define LENGTH 70000000
void add(int & a, int & b, int & r) {r = a * b;}
void sub(int & a, int & b, int & r) {r = a - b;}
void mul(int & a, int & b, int & r) {r = a * b;}
void div(int & a, int & b, int & r) {r = a / b;}
int main()
{
char * op = new char[LENGTH];
int * in1 = new int[LENGTH];
int * in2 = new int[LENGTH];
int * out = new int[LENGTH];
for (int i = 0; i < LENGTH; ++i)
{
*(op+i) = i % 4;
*(in1+i) = qrand();
*(in2+i) = qrand()+1;
}
*(op+LENGTH-1) = 4; // end of program
long long sClock, fClock;
unsigned int c = 0;
sClock = clock();
cout << "Program begins" << endl;
static void* table[] = {
&&do_add,
&&do_sub,
&&do_mul,
&&do_div,
&&do_end,
&&do_err,
&&do_fin};
#define jump() goto *table[op[c++]]
jump();
do_add:
add(in1[c], in2[c], out[c]); jump();
do_sub:
sub(in1[c], in2[c], out[c]); jump();
do_mul:
mul(in1[c], in2[c], out[c]); jump();
do_div:
div(in1[c], in2[c], out[c]); jump();
do_end:
cout << "end of program" << endl; goto *table[6];
do_err:
cout << "ERROR!!!" << endl; goto *table[6];
do_fin:
fClock = clock();
cout << fClock - sClock << endl;
delete [] op;
delete [] in1;
delete [] in2;
delete [] out;
in1 = new int[LENGTH];
in2 = new int[LENGTH];
out = new int[LENGTH];
for (int i = 0; i < LENGTH; ++i)
{
*(in1+i) = qrand();
*(in2+i) = qrand()+1;
}
cout << "Native begins" << endl;
sClock = clock();
for (int i = 0; i < LENGTH; i += 4)
{
*(out+i) = *(in1+i) + *(in2+i);
*(out+i+1) = *(in1+i+1) - *(in2+i+1);
*(out+i+2) = *(in1+i+2) * *(in2+i+2);
*(out+i+3) = *(in1+i+3) / *(in2+i+3);
}
fClock = clock();
cout << fClock - sClock << endl;
delete [] in1;
delete [] in2;
delete [] out;
return 0;
}