Diferenças de CPU e GPU

Qual é a diferença entre uma única unidade de processamento da CPU e uma única unidade de processamento da GPU?
A maioria dos lugares que eu vim na internet cobre as diferenças de alto nível entre os dois. Quero saber quais instruções cada uma pode executar, qual a rapidez com que são e como essas unidades de processamento estão integradas na arquitetura de competições?
Parece uma pergunta com uma resposta longa. Muitos links estão bem.

editar:
Na CPU, a FPU executa operações com números reais. Qual a velocidade das mesmas operações em cada núcleo de GPU? Se rápido, por que é rápido?
Sei que minha pergunta é muito genérica, mas meu objetivo é ter essas perguntas respondidas.

questionAnswers(3)

yourAnswerToTheQuestion