Operación del módulo de punto flotante

Estoy intentando implementar la operación de reducción de rango para trigonometría. Pero en cambio, creo que sería mejor realizar una operación de módulo pi / 2 en los datos entrantes. Me preguntaba qué algoritmos existen y son eficientes para esta operación para punto flotante IEEE 754 de 32 bits?

Tengo que implementar esto en el ensamblado, por lo que fmod, division, multiplication, etc. no están disponibles para mí con una sola instrucción. Mi procesador utiliza palabras de 16 bits y he implementado la suma, resta, multiplicación, división, raíz cuadrada, coseno y seno de coma flotante de 32 bits. Solo necesito la reducción de rango (módulo) para ingresar valores en coseno y seno.

Respuestas a la pregunta(6)

Su respuesta a la pregunta