Algoritmo mais rápido de divisão 64bit / 32bit para ARM / NEON?

Eu estou trabalhando em um código em que em dois lugares há 64bit por divisão de ponto fixo de 32 bits e o resultado é obtido em 32 bits. Esses dois lugares estão juntos, levando mais de 20% do tempo total gasto. Então eu sinto que se eu pudesse remover a divisão de 64 bits, eu poderia otimizar bem o código. No NEON podemos ter algumas instruções de 64 bits. Alguém pode sugerir alguma rotina para resolver o gargalo usando uma implementação mais rápida.

Ou se eu pudesse fazer a divisão de 64 bits / 32 bits em termos de divisão de 32 bits / 32 bits em C, isso também está correto?

Se alguém tem alguma idéia, você poderia me ajudar?

questionAnswers(1)

yourAnswerToTheQuestion