Почему GCC или Clang не оптимизируют обратную 1 инструкцию при использовании fast-math
Кто-нибудь знает, почему GCC / Clang не будет работать оптимистичноtest1 в приведенном ниже примере кода просто использовать инструкцию RCPPS при использовании опции fast-math? Есть ли другой флаг компилятора, который будет генерировать этот код?
typedef float float4 __attribute__((vector_size(16)));
float4 test1(float4 v)
{
return 1.0f / v;
}
Вы можете увидеть скомпилированный вывод здесь:https://goo.gl/jXsqat