горизонтальная сумма 8 упакованных 32-битных чисел

Если у меня есть 8 упакованных 32-битных чисел с плавающей запятой (__m256), какие'самый быстрый способ извлечь горизонтальную сумму из всех 8 элементов? Точно так же, как получить горизонтальный максимум и минимум? Другими словами, чтолучшая реализация для следующих функций C ++?

float sum(__m256 x);  ///< returns sum of all 8 elements
float max(__m256 x);  ///< returns the maximum of all 8 elements
float min(__m256 x);  ///< returns the minimum of all 8 elements

Ответы на вопрос(4)

Ваш ответ на вопрос