Ponto flutuante duplo estendido (80 bits) em x87, não SSE2 - não perdemos?

Eu estava lendo hoje sobrepesquisadores descobrindo que as bibliotecas Phys-X da NVidia usam x87 FP vs. SSE2. Obviamente, isso será subótimo para conjuntos de dados paralelos em que a velocidade supera a precisão. No entanto, o autor do artigo continua citando:

A Intel começou a desencorajar o uso do x87 com a introdução do P4 no final de 2000. A AMD reprovou o x87 desde o K8 em 2003, pois o x86-64 é definido com suporte para SSE2; O C7 da VIA oferece suporte ao SSE2 desde 2005. Nas versões de 64 bits do Windows, o x87 é preterido no modo de usuário e proibido totalmente no modo de kernel. Quase todo mundo no setor recomenda o SSE acima de x87 desde 2005 e não há motivos para usá-lo, a menos que o software precise ser executado em um Pentium ou 486 incorporado.

Eu me perguntava sobre isso. Eu sei que o x87 usa dobras estendidas de 80 bits internamente para calcular valores e o SSE2 não. Isso não importa para ninguém? Parece-me surpreendente. Sei que quando faço cálculos em pontos, linhas e polígonos em um plano, os valores podem surpreendentemente estar errados ao fazer subtrações, e as áreas podem entrar em colapso e as linhas se alternarem devido à falta de precisão. Usar valores de 80 bits vs. valores de 64 bits poderia ajudar, eu imaginaria.

Isso está incorreto? Caso contrário, o que podemos usar para executar operações de FP duplo estendido se x87 for eliminado?