O Intel Inspector relata uma corrida de dados na minha implementação de spinlock

Fiz um spinlock muito simples usando as funções Interlocked no Windows e testei em uma CPU dual-core (dois threads que incrementam uma variável);

O programa parece funcionar bem (dá o mesmo resultado todas as vezes, o que não é o caso quando nenhuma sincronização é usada), masInspetor Paralelo Intel diz que há uma condição de corrida emvalor + = j (veja o código abaixo). O aviso desaparece ao usar seções críticas em vez do meu SpinLock.

A minha implementação do SpinLock está correta ou não? É realmente estranho, porque todas as operações usadas são atômicas e têm as barreiras de memória adequadas e não devem levar a condições de corrida.

class SpinLock
{
   int *lockValue;
   SpinLock(int *value) : lockValue(value) { }

   void Lock() {
      while(InterlockedCompareExchange((volatile LONG*)lockValue, 1, 0) != 0) {
          WaitABit();
      }
   }

   void Unlock() { InterlockedExchange((volatile LONG*)lockValue, 0); }
};

O programa de teste:

static const int THREADS = 2;
HANDLE completedEvents[THREADS];
int value = 0;
int lock = 0; // Global.

DWORD WINAPI TestThread(void *param) {
    HANDLE completed = (HANDLE)param;
    SpinLock testLock(&lock);

    for(int i = 0;i < 1000*20; i++) {
        for(int j = 0;j < 10*10; j++) {
            // Add something to the variable.
            testLock.Lock();
            value += j;
            testLock.Unlock();
        }
    }
    SetEvent(completed);
}

int main() {
   for(int i = 0; i < THREADS; i++) {
        completedEvents[i] = CreateEvent(NULL, true, false, NULL);
   }
   for(int i = 0; i < THREADS; i++) {
        DWORD id;
        CreateThread(NULL, 0, TestThread, completedEvents[i], 0, &id);
   }

   WaitForMultipleObjects(THREADS, completedEvents, true, INFINITE);
   cout<<value;
}

questionAnswers(3)

yourAnswerToTheQuestion