Operação do módulo de ponto flutuante

Estou tentando implementar a operação de redução de intervalo para trigonometria. Mas, em vez disso, acho que seria melhor executar apenas uma operação do módulo pi / 2 nos dados recebidos. Eu queria saber quais algoritmos existem e são eficientes para esta operação para o ponto flutuante IEEE 754 de 32 bits?

Eu tenho que implementar isso na montagem, para que fmod, divisão, multiplicação etc. não estejam disponíveis para mim com apenas uma instrução. Meu processador usa palavras de 16 bits e eu implementei adição, subtração, multiplicação, divisão, raiz quadrada, cosseno e seno de ponto flutuante de 32 bits. Eu só preciso de redução de alcance (módulo) para inserir valores no cosseno e no sen

questionAnswers(6)

yourAnswerToTheQuestion