64-bitowy / 32-bitowy algorytm szybszy dla ARM / NEON?

Pracuję nad kodem, w którym w dwóch miejscach jest 64-bitowy podział na 32-bitowy punkt stały, a wynik jest pobierany w 32 bitach. Te dwa miejsca zabierają razem ponad 20% mojego całkowitego czasu. Więc czuję, że gdybym mógł usunąć podział 64-bitowy, mógłbym zoptymalizować kod dobrze. W NEON możemy mieć jakieś 64-bitowe instrukcje. Czy ktokolwiek może zasugerować jakąś rutynę, aby wyeliminować wąskie gardło za pomocą szybszej implementacji.

Lub jeśli mógłbym dokonać podziału 64-bitowego / 32-bitowego w kategoriach podziału 32-bitowego / 32-bitowego w C, to również jest w porządku?

Jeśli ktoś ma jakiś pomysł, czy mógłbyś mi pomóc?

questionAnswers(1)

yourAnswerToTheQuestion