64bit / 32bit Division schnellerer Algorithmus für ARM / NEON?
Ich arbeite an einem Code, in dem es an zwei Stellen eine 64-Bit-durch-32-Bit-Festkommadivision gibt und das Ergebnis in 32-Bit übernommen wird. Diese beiden Orte nehmen zusammen mehr als 20% meiner Gesamtzeit in Anspruch. Wenn ich also die 64-Bit-Unterteilung entfernen könnte, könnte ich den Code gut optimieren. In NEON können wir einige 64-Bit-Anweisungen haben. Kann jemand eine Routine vorschlagen, um den Engpass durch eine schnellere Implementierung zu beheben?
Oder wenn ich die 64-Bit / 32-Bit-Division in Bezug auf 32-Bit / 32-Bit-Division in C machen könnte, ist das auch in Ordnung?
Wenn jemand eine Idee hat, können Sie mir bitte helfen?