Почему GCC или Clang не оптимизируют обратную 1 инструкцию при использовании fast-math

Кто-нибудь знает, почему GCC / Clang не будет работать оптимистичноtest1 в приведенном ниже примере кода просто использовать инструкцию RCPPS при использовании опции fast-math? Есть ли другой флаг компилятора, который будет генерировать этот код?

typedef float float4 __attribute__((vector_size(16)));

float4 test1(float4 v)
{
    return 1.0f / v;
}

Вы можете увидеть скомпилированный вывод здесь:https://goo.gl/jXsqat

Ответы на вопрос(1)

Ваш ответ на вопрос