Packing BCD to DPD: Wie kann diese amd64-Assembler-Routine verbessert werden?

Ich schreibe eine Routine zum Konvertieren zwischen BCD (4 Bits pro Dezimalstelle) undDicht gepackte Dezimalzahl (DPD) (10 Bits pro 3 Dezimalstellen). DPD ist weiter dokumentiert (mit dem Vorschlag, dass Software Nachschlagetabellen verwendet) aufMike Cowlishaws Website.

Diese Routine benötigt immer nur die unteren 16 Bit der verwendeten Register. Für eine kürzere Befehlskodierung habe ich jedoch, wo immer möglich, 32 Bit-Befehle verwendet. Ist eine Geschwindigkeitsstrafe mit Code verbunden wie:

mov data,%eax # high 16 bit of data are cleared
shl %al
shr %eax


and $0x888,%edi         #   = 0000 a000 e000 i000
imul $0x0490,%di        #   = aei0 0000 0000 0000

where die Alternative zu einem 16-Bitimul wäre entweder ein 32-Bitimul und ein nachfolgendesand oder eine Reihe vonlea Anleitung und ein finalesand.

Der gesamte Code in meiner Routine ist unten zu finden. Gibt es irgendetwas, bei dem die Leistung schlechter ist, als es daran liegen könnte, dass ich Wort- und Wortanweisungen mische?

        .section .text
        .type bcd2dpd_mul,@function
        .globl bcd2dpd_mul

        # convert BCD to DPD with multiplication tricks
        # input abcd efgh iklm in edi
        .align 8
        mov %edi,%eax           #   = 0000 abcd efgh iklm
        shl %al                 #   = 0000 abcd fghi klm0
        shr %eax                #   = 0000 0abc dfgh iklm
        test $0x880,%edi        # fast path for a = e = 0
        jz 1f

        and $0x888,%edi         #   = 0000 a000 e000 i000
        imul $0x0490,%di        #   = aei0 0000 0000 0000
        mov %eax,%esi
        and $0x66,%esi          # q = 0000 0000 0fg0 0kl0
        shr $13,%edi            # u = 0000 0000 0000 0aei
        imul tab-8(,%rdi,4),%si # v = q * tab[u-2][0]
        and $0x397,%eax         # r = 0000 00bc d00h 0klm
        xor %esi,%eax           # w = r ^ v
        or tab-6(,%rdi,4),%ax   # x = w | tab[u-2][1]
        and $0x3ff,%eax         #   = 0000 00xx xxxx xxxx
1:      ret

        .size bcd2dpd_mul,.-bcd2dpd_mul

        .section .rodata
        .align 4
        .short 0x0011 ; .short 0x000a
        .short 0x0000 ; .short 0x004e
        .short 0x0081 ; .short 0x000c
        .short 0x0008 ; .short 0x002e
        .short 0x0081 ; .short 0x000e
        .short 0x0000 ; .short 0x006e
        .size tab,.-tab
Verbesserter Code

Nach einigen Vorschlägen aus den Antworten und Kommentaren und einigen anderen Tricks ist hier mein verbesserter Code.

        .section .text
        .type bcd2dpd_mul,@function
        .globl bcd2dpd_mul

        # convert BCD to DPD with multiplication tricks
        # input abcd efgh iklm in edi
        .align 8
        mov %edi,%eax           #   = 0000 abcd efgh iklm
        shl %al                 #   = 0000 abcd fghi klm0
        shr %eax                #   = 0000 0abc dfgh iklm
        test $0x880,%edi        # fast path for a = e = 0
        jnz 1f

        .align 8
1:      and $0x888,%edi         #   = 0000 a000 e000 i000
        imul $0x49,%edi         #   = 0ae0 aei0 ei00 i000
        mov %eax,%esi
        and $0x66,%esi          # q = 0000 0000 0fg0 0kl0
        shr $8,%edi             #   = 0000 0000 0ae0 aei0
        and $0xe,%edi           #   = 0000 0000 0000 aei0
        mov lookup-4(%rdi),%dx
        movzbl %dl,%edi
        imul %edi,%esi          # v = q * tab[u-2][0]
        and $0x397,%eax         # r = 0000 00bc d00h 0klm
        xor %esi,%eax           # w = r ^ v
        or %dh,%al              #   = w | tab[u-2][1]
        and $0x3ff,%eax         #   = 0000 00xx xxxx xxxx

        .size bcd2dpd_mul,.-bcd2dpd_mul

        .section .rodata
        .align 4
        .byte 0x11
        .byte 0x0a
        .byte 0x00
        .byte 0x4e
        .byte 0x81
        .byte 0x0c
        .byte 0x08
        .byte 0x2e
        .byte 0x81
        .byte 0x0e
        .byte 0x00
        .byte 0x6e
        .size lookup,.-lookup