x86_64: Add endbranch at function entries for Intel CET
[oweals/openssl.git] / crypto / aes / asm / aes-x86_64.pl
index ce4ca30b1a785b7467245f56097fc235530375f4..4e417a516b94a554aef136353581a17251cfc809 100755 (executable)
@@ -1,14 +1,14 @@
 #! /usr/bin/env perl
 # Copyright 2005-2016 The OpenSSL Project Authors. All Rights Reserved.
 #
-# Licensed under the OpenSSL license (the "License").  You may not use
+# Licensed under the Apache License 2.0 (the "License").  You may not use
 # this file except in compliance with the License.  You can obtain a copy
 # in the file LICENSE in the source distribution or at
 # https://www.openssl.org/source/license.html
 
 #
 # ====================================================================
-# Written by Andy Polyakov <appro@fy.chalmers.se> for the OpenSSL
+# Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
 # project. The module is, however, dual licensed under OpenSSL and
 # CRYPTOGAMS licenses depending on where you obtain it. For further
 # details see http://www.openssl.org/~appro/cryptogams/.
 #
 # (*) with hyper-threading off
 
-$flavour = shift;
-$output  = shift;
-if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
+# $output is the last argument if it looks like a file (it has an extension)
+# $flavour is the first argument if it doesn't look like a file
+$output = $#ARGV >= 0 && $ARGV[$#ARGV] =~ m|\.\w+$| ? pop : undef;
+$flavour = $#ARGV >= 0 && $ARGV[0] !~ m|\.| ? shift : undef;
 
 $win64=0; $win64=1 if ($flavour =~ /[nm]asm|mingw64/ || $output =~ /\.asm$/);
 
@@ -44,7 +45,8 @@ $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
 ( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
 die "can't locate x86_64-xlate.pl";
 
-open OUT,"| \"$^X\" \"$xlate\" $flavour \"$output\"";
+open OUT,"| \"$^X\" \"$xlate\" $flavour \"$output\""
+    or die "can't call $xlate: $!";
 *STDOUT=*OUT;
 
 $verticalspin=1;       # unlike 32-bit version $verticalspin performs
@@ -326,6 +328,7 @@ $code.=<<___;
 .type  _x86_64_AES_encrypt,\@abi-omnipotent
 .align 16
 _x86_64_AES_encrypt:
+.cfi_startproc
        xor     0($key),$s0                     # xor with key
        xor     4($key),$s1
        xor     8($key),$s2
@@ -361,6 +364,7 @@ ___
        }
 $code.=<<___;
        .byte   0xf3,0xc3                       # rep ret
+.cfi_endproc
 .size  _x86_64_AES_encrypt,.-_x86_64_AES_encrypt
 ___
 
@@ -554,6 +558,7 @@ $code.=<<___;
 .type  _x86_64_AES_encrypt_compact,\@abi-omnipotent
 .align 16
 _x86_64_AES_encrypt_compact:
+.cfi_startproc
        lea     128($sbox),$inp                 # size optimization
        mov     0-128($inp),$acc1               # prefetch Te4
        mov     32-128($inp),$acc2
@@ -587,6 +592,7 @@ $code.=<<___;
        xor     8($key),$s2
        xor     12($key),$s3
        .byte   0xf3,0xc3                       # rep ret
+.cfi_endproc
 .size  _x86_64_AES_encrypt_compact,.-_x86_64_AES_encrypt_compact
 ___
 
@@ -599,15 +605,24 @@ $code.=<<___;
 .hidden        asm_AES_encrypt
 asm_AES_encrypt:
 AES_encrypt:
+.cfi_startproc
+       endbranch
+       mov     %rsp,%rax
+.cfi_def_cfa_register  %rax
        push    %rbx
+.cfi_push      %rbx
        push    %rbp
+.cfi_push      %rbp
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
 
        # allocate frame "above" key schedule
-       mov     %rsp,%r10
        lea     -63(%rdx),%rcx  # %rdx is key argument
        and     \$-64,%rsp
        sub     %rsp,%rcx
@@ -617,7 +632,8 @@ AES_encrypt:
        sub     \$32,%rsp
 
        mov     %rsi,16(%rsp)   # save out
-       mov     %r10,24(%rsp)   # save real stack pointer
+       mov     %rax,24(%rsp)   # save original stack pointer
+.cfi_cfa_expression    %rsp+24,deref,+8
 .Lenc_prologue:
 
        mov     %rdx,$key
@@ -644,20 +660,29 @@ AES_encrypt:
 
        mov     16(%rsp),$out   # restore out
        mov     24(%rsp),%rsi   # restore saved stack pointer
+.cfi_def_cfa   %rsi,8
        mov     $s0,0($out)     # write output vector
        mov     $s1,4($out)
        mov     $s2,8($out)
        mov     $s3,12($out)
 
-       mov     (%rsi),%r15
-       mov     8(%rsi),%r14
-       mov     16(%rsi),%r13
-       mov     24(%rsi),%r12
-       mov     32(%rsi),%rbp
-       mov     40(%rsi),%rbx
-       lea     48(%rsi),%rsp
+       mov     -48(%rsi),%r15
+.cfi_restore   %r15
+       mov     -40(%rsi),%r14
+.cfi_restore   %r14
+       mov     -32(%rsi),%r13
+.cfi_restore   %r13
+       mov     -24(%rsi),%r12
+.cfi_restore   %r12
+       mov     -16(%rsi),%rbp
+.cfi_restore   %rbp
+       mov     -8(%rsi),%rbx
+.cfi_restore   %rbx
+       lea     (%rsi),%rsp
+.cfi_def_cfa_register  %rsp
 .Lenc_epilogue:
        ret
+.cfi_endproc
 .size  AES_encrypt,.-AES_encrypt
 ___
 
@@ -890,6 +915,7 @@ $code.=<<___;
 .type  _x86_64_AES_decrypt,\@abi-omnipotent
 .align 16
 _x86_64_AES_decrypt:
+.cfi_startproc
        xor     0($key),$s0                     # xor with key
        xor     4($key),$s1
        xor     8($key),$s2
@@ -932,6 +958,7 @@ ___
        }
 $code.=<<___;
        .byte   0xf3,0xc3                       # rep ret
+.cfi_endproc
 .size  _x86_64_AES_decrypt,.-_x86_64_AES_decrypt
 ___
 
@@ -1143,6 +1170,7 @@ $code.=<<___;
 .type  _x86_64_AES_decrypt_compact,\@abi-omnipotent
 .align 16
 _x86_64_AES_decrypt_compact:
+.cfi_startproc
        lea     128($sbox),$inp                 # size optimization
        mov     0-128($inp),$acc1               # prefetch Td4
        mov     32-128($inp),$acc2
@@ -1185,6 +1213,7 @@ $code.=<<___;
        xor     8($key),$s2
        xor     12($key),$s3
        .byte   0xf3,0xc3                       # rep ret
+.cfi_endproc
 .size  _x86_64_AES_decrypt_compact,.-_x86_64_AES_decrypt_compact
 ___
 
@@ -1197,15 +1226,24 @@ $code.=<<___;
 .hidden        asm_AES_decrypt
 asm_AES_decrypt:
 AES_decrypt:
+.cfi_startproc
+       endbranch
+       mov     %rsp,%rax
+.cfi_def_cfa_register  %rax
        push    %rbx
+.cfi_push      %rbx
        push    %rbp
+.cfi_push      %rbp
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
 
        # allocate frame "above" key schedule
-       mov     %rsp,%r10
        lea     -63(%rdx),%rcx  # %rdx is key argument
        and     \$-64,%rsp
        sub     %rsp,%rcx
@@ -1215,7 +1253,8 @@ AES_decrypt:
        sub     \$32,%rsp
 
        mov     %rsi,16(%rsp)   # save out
-       mov     %r10,24(%rsp)   # save real stack pointer
+       mov     %rax,24(%rsp)   # save original stack pointer
+.cfi_cfa_expression    %rsp+24,deref,+8
 .Ldec_prologue:
 
        mov     %rdx,$key
@@ -1244,20 +1283,29 @@ AES_decrypt:
 
        mov     16(%rsp),$out   # restore out
        mov     24(%rsp),%rsi   # restore saved stack pointer
+.cfi_def_cfa   %rsi,8
        mov     $s0,0($out)     # write output vector
        mov     $s1,4($out)
        mov     $s2,8($out)
        mov     $s3,12($out)
 
-       mov     (%rsi),%r15
-       mov     8(%rsi),%r14
-       mov     16(%rsi),%r13
-       mov     24(%rsi),%r12
-       mov     32(%rsi),%rbp
-       mov     40(%rsi),%rbx
-       lea     48(%rsi),%rsp
+       mov     -48(%rsi),%r15
+.cfi_restore   %r15
+       mov     -40(%rsi),%r14
+.cfi_restore   %r14
+       mov     -32(%rsi),%r13
+.cfi_restore   %r13
+       mov     -24(%rsi),%r12
+.cfi_restore   %r12
+       mov     -16(%rsi),%rbp
+.cfi_restore   %rbp
+       mov     -8(%rsi),%rbx
+.cfi_restore   %rbx
+       lea     (%rsi),%rsp
+.cfi_def_cfa_register  %rsp
 .Ldec_epilogue:
        ret
+.cfi_endproc
 .size  AES_decrypt,.-AES_decrypt
 ___
 #------------------------------------------------------------------#
@@ -1296,27 +1344,41 @@ $code.=<<___;
 .type  AES_set_encrypt_key,\@function,3
 .align 16
 AES_set_encrypt_key:
+.cfi_startproc
+       endbranch
        push    %rbx
+.cfi_push      %rbx
        push    %rbp
-       push    %r12                    # redundant, but allows to share 
+.cfi_push      %rbp
+       push    %r12                    # redundant, but allows to share
+.cfi_push      %r12
        push    %r13                    # exception handler...
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        sub     \$8,%rsp
+.cfi_adjust_cfa_offset 8
 .Lenc_key_prologue:
 
        call    _x86_64_AES_set_encrypt_key
 
        mov     40(%rsp),%rbp
+.cfi_restore   %rbp
        mov     48(%rsp),%rbx
+.cfi_restore   %rbx
        add     \$56,%rsp
+.cfi_adjust_cfa_offset -56
 .Lenc_key_epilogue:
        ret
+.cfi_endproc
 .size  AES_set_encrypt_key,.-AES_set_encrypt_key
 
 .type  _x86_64_AES_set_encrypt_key,\@abi-omnipotent
 .align 16
 _x86_64_AES_set_encrypt_key:
+.cfi_startproc
        mov     %esi,%ecx                       # %ecx=bits
        mov     %rdi,%rsi                       # %rsi=userKey
        mov     %rdx,%rdi                       # %rdi=key
@@ -1424,7 +1486,7 @@ $code.=<<___;
        xor     %rax,%rax
        jmp     .Lexit
 
-.L14rounds:            
+.L14rounds:
        mov     0(%rsi),%rax                    # copy first 8 dwords
        mov     8(%rsi),%rbx
        mov     16(%rsi),%rcx
@@ -1498,6 +1560,7 @@ $code.=<<___;
        mov     \$-1,%rax
 .Lexit:
        .byte   0xf3,0xc3                       # rep ret
+.cfi_endproc
 .size  _x86_64_AES_set_encrypt_key,.-_x86_64_AES_set_encrypt_key
 ___
 
@@ -1562,13 +1625,22 @@ $code.=<<___;
 .type  AES_set_decrypt_key,\@function,3
 .align 16
 AES_set_decrypt_key:
+.cfi_startproc
+       endbranch
        push    %rbx
+.cfi_push      %rbx
        push    %rbp
+.cfi_push      %rbp
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        push    %rdx                    # save key schedule
+.cfi_adjust_cfa_offset 8
 .Ldec_key_prologue:
 
        call    _x86_64_AES_set_encrypt_key
@@ -1622,14 +1694,22 @@ $code.=<<___;
        xor     %rax,%rax
 .Labort:
        mov     8(%rsp),%r15
+.cfi_restore   %r15
        mov     16(%rsp),%r14
+.cfi_restore   %r14
        mov     24(%rsp),%r13
+.cfi_restore   %r13
        mov     32(%rsp),%r12
+.cfi_restore   %r12
        mov     40(%rsp),%rbp
+.cfi_restore   %rbp
        mov     48(%rsp),%rbx
+.cfi_restore   %rbx
        add     \$56,%rsp
+.cfi_adjust_cfa_offset -56
 .Ldec_key_epilogue:
        ret
+.cfi_endproc
 .size  AES_set_decrypt_key,.-AES_set_decrypt_key
 ___
 
@@ -1660,26 +1740,37 @@ $code.=<<___;
 .hidden        asm_AES_cbc_encrypt
 asm_AES_cbc_encrypt:
 AES_cbc_encrypt:
+.cfi_startproc
+       endbranch
        cmp     \$0,%rdx        # check length
        je      .Lcbc_epilogue
        pushfq
+# This could be .cfi_push 49, but libunwind fails on registers it does not
+# recognize. See https://bugzilla.redhat.com/show_bug.cgi?id=217087.
+.cfi_adjust_cfa_offset 8
        push    %rbx
+.cfi_push      %rbx
        push    %rbp
+.cfi_push      %rbp
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
 .Lcbc_prologue:
 
        cld
        mov     %r9d,%r9d       # clear upper half of enc
 
        lea     .LAES_Te(%rip),$sbox
+       lea     .LAES_Td(%rip),%r10
        cmp     \$0,%r9
-       jne     .Lcbc_picked_te
-       lea     .LAES_Td(%rip),$sbox
-.Lcbc_picked_te:
+       cmoveq  %r10,$sbox
 
+.cfi_remember_state
        mov     OPENSSL_ia32cap_P(%rip),%r10d
        cmp     \$$speed_limit,%rdx
        jb      .Lcbc_slow_prologue
@@ -1714,8 +1805,10 @@ AES_cbc_encrypt:
 .Lcbc_te_ok:
 
        xchg    %rsp,$key
+.cfi_def_cfa_register  $key
        #add    \$8,%rsp        # reserve for return address!
        mov     $key,$_rsp      # save %rsp
+.cfi_cfa_expression    $_rsp,deref,+64
 .Lcbc_fast_body:
        mov     %rdi,$_inp      # save copy of inp
        mov     %rsi,$_out      # save copy of out
@@ -1913,6 +2006,7 @@ AES_cbc_encrypt:
 #--------------------------- SLOW ROUTINE ---------------------------#
 .align 16
 .Lcbc_slow_prologue:
+.cfi_restore_state
        # allocate aligned stack frame...
        lea     -88(%rsp),%rbp
        and     \$-64,%rbp
@@ -1924,8 +2018,10 @@ AES_cbc_encrypt:
        sub     %r10,%rbp
 
        xchg    %rsp,%rbp
+.cfi_def_cfa_register  %rbp
        #add    \$8,%rsp        # reserve for return address!
        mov     %rbp,$_rsp      # save %rsp
+.cfi_cfa_expression    $_rsp,deref,+64
 .Lcbc_slow_body:
        #mov    %rdi,$_inp      # save copy of inp
        #mov    %rsi,$_out      # save copy of out
@@ -1945,7 +2041,7 @@ AES_cbc_encrypt:
        lea     ($key,%rax),%rax
        mov     %rax,$keyend
 
-       # pick Te4 copy which can't "overlap" with stack frame or key scdedule
+       # pick Te4 copy which can't "overlap" with stack frame or key schedule
        lea     2048($sbox),$sbox
        lea     768-8(%rsp),%rax
        sub     $sbox,%rax
@@ -2097,17 +2193,29 @@ AES_cbc_encrypt:
 .align 16
 .Lcbc_exit:
        mov     $_rsp,%rsi
+.cfi_def_cfa   %rsi,64
        mov     (%rsi),%r15
+.cfi_restore   %r15
        mov     8(%rsi),%r14
+.cfi_restore   %r14
        mov     16(%rsi),%r13
+.cfi_restore   %r13
        mov     24(%rsi),%r12
+.cfi_restore   %r12
        mov     32(%rsi),%rbp
+.cfi_restore   %rbp
        mov     40(%rsi),%rbx
+.cfi_restore   %rbx
        lea     48(%rsi),%rsp
+.cfi_def_cfa   %rsp,16
 .Lcbc_popfq:
        popfq
+# This could be .cfi_pop 49, but libunwind fails on registers it does not
+# recognize. See https://bugzilla.redhat.com/show_bug.cgi?id=217087.
+.cfi_adjust_cfa_offset -8
 .Lcbc_epilogue:
        ret
+.cfi_endproc
 .size  AES_cbc_encrypt,.-AES_cbc_encrypt
 ___
 }
@@ -2580,7 +2688,6 @@ block_se_handler:
        jae     .Lin_block_prologue
 
        mov     24(%rax),%rax           # pull saved real stack pointer
-       lea     48(%rax),%rax           # adjust...
 
        mov     -8(%rax),%rbx
        mov     -16(%rax),%rbp
@@ -2817,4 +2924,4 @@ $code =~ s/\`([^\`]*)\`/eval($1)/gem;
 
 print $code;
 
-close STDOUT;
+close STDOUT or die "error closing STDOUT";