64-битный / 32-битный алгоритм деления быстрее для ARM / NEON?
Я работаю над кодом, в котором в двух местах есть 64-битное 32-битное деление с фиксированной запятой, и результат берется в 32-битных. Эти два места вместе занимают более 20% моего общего времени. Поэтому я чувствую, что если бы я мог удалить 64-битное деление, я мог бы хорошо оптимизировать код. В NEON у нас может быть несколько 64-битных инструкций. Может ли кто-нибудь предложить какую-нибудь рутину, чтобы устранить узкое место, используя более быструю реализацию.
Или, если бы я мог сделать 64-битное / 32-битное деление с точки зрения 32-битного / 32-битного деления в C, это тоже хорошо?
Если у кого-то есть идея, не могли бы вы мне помочь?