Linux-libre 5.4.49-gnu
[librecmc/linux-libre.git] / arch / x86 / crypto / sha256-avx2-asm.S
1 ########################################################################
2 # Implement fast SHA-256 with AVX2 instructions. (x86_64)
3 #
4 # Copyright (C) 2013 Intel Corporation.
5 #
6 # Authors:
7 #     James Guilford <james.guilford@intel.com>
8 #     Kirk Yap <kirk.s.yap@intel.com>
9 #     Tim Chen <tim.c.chen@linux.intel.com>
10 #
11 # This software is available to you under a choice of one of two
12 # licenses.  You may choose to be licensed under the terms of the GNU
13 # General Public License (GPL) Version 2, available from the file
14 # COPYING in the main directory of this source tree, or the
15 # OpenIB.org BSD license below:
16 #
17 #     Redistribution and use in source and binary forms, with or
18 #     without modification, are permitted provided that the following
19 #     conditions are met:
20 #
21 #      - Redistributions of source code must retain the above
22 #        copyright notice, this list of conditions and the following
23 #        disclaimer.
24 #
25 #      - Redistributions in binary form must reproduce the above
26 #        copyright notice, this list of conditions and the following
27 #        disclaimer in the documentation and/or other materials
28 #        provided with the distribution.
29 #
30 # THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
31 # EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
32 # MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
33 # NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
34 # BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
35 # ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
36 # CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
37 # SOFTWARE.
38 #
39 ########################################################################
40 #
41 # This code is described in an Intel White-Paper:
42 # "Fast SHA-256 Implementations on Intel Architecture Processors"
43 #
44 # To find it, surf to http://www.intel.com/p/en_US/embedded
45 # and search for that title.
46 #
47 ########################################################################
48 # This code schedules 2 blocks at a time, with 4 lanes per block
49 ########################################################################
50
51 #ifdef CONFIG_AS_AVX2
52 #include <linux/linkage.h>
53
54 ## assume buffers not aligned
55 #define VMOVDQ vmovdqu
56
57 ################################ Define Macros
58
59 # addm [mem], reg
60 # Add reg to mem using reg-mem add and store
61 .macro addm p1 p2
62         add     \p1, \p2
63         mov     \p2, \p1
64 .endm
65
66 ################################
67
68 X0 = %ymm4
69 X1 = %ymm5
70 X2 = %ymm6
71 X3 = %ymm7
72
73 # XMM versions of above
74 XWORD0 = %xmm4
75 XWORD1 = %xmm5
76 XWORD2 = %xmm6
77 XWORD3 = %xmm7
78
79 XTMP0 = %ymm0
80 XTMP1 = %ymm1
81 XTMP2 = %ymm2
82 XTMP3 = %ymm3
83 XTMP4 = %ymm8
84 XFER  = %ymm9
85 XTMP5 = %ymm11
86
87 SHUF_00BA =     %ymm10 # shuffle xBxA -> 00BA
88 SHUF_DC00 =     %ymm12 # shuffle xDxC -> DC00
89 BYTE_FLIP_MASK = %ymm13
90
91 X_BYTE_FLIP_MASK = %xmm13 # XMM version of BYTE_FLIP_MASK
92
93 NUM_BLKS = %rdx # 3rd arg
94 INP     = %rsi  # 2nd arg
95 CTX     = %rdi  # 1st arg
96 c       = %ecx
97 d       = %r8d
98 e       = %edx  # clobbers NUM_BLKS
99 y3      = %esi  # clobbers INP
100
101 SRND    = CTX   # SRND is same register as CTX
102
103 a = %eax
104 b = %ebx
105 f = %r9d
106 g = %r10d
107 h = %r11d
108 old_h = %r11d
109
110 T1 = %r12d
111 y0 = %r13d
112 y1 = %r14d
113 y2 = %r15d
114
115
116 _XFER_SIZE      = 2*64*4        # 2 blocks, 64 rounds, 4 bytes/round
117 _XMM_SAVE_SIZE  = 0
118 _INP_END_SIZE   = 8
119 _INP_SIZE       = 8
120 _CTX_SIZE       = 8
121 _RSP_SIZE       = 8
122
123 _XFER           = 0
124 _XMM_SAVE       = _XFER     + _XFER_SIZE
125 _INP_END        = _XMM_SAVE + _XMM_SAVE_SIZE
126 _INP            = _INP_END  + _INP_END_SIZE
127 _CTX            = _INP      + _INP_SIZE
128 _RSP            = _CTX      + _CTX_SIZE
129 STACK_SIZE      = _RSP      + _RSP_SIZE
130
131 # rotate_Xs
132 # Rotate values of symbols X0...X3
133 .macro rotate_Xs
134         X_ = X0
135         X0 = X1
136         X1 = X2
137         X2 = X3
138         X3 = X_
139 .endm
140
141 # ROTATE_ARGS
142 # Rotate values of symbols a...h
143 .macro ROTATE_ARGS
144         old_h = h
145         TMP_ = h
146         h = g
147         g = f
148         f = e
149         e = d
150         d = c
151         c = b
152         b = a
153         a = TMP_
154 .endm
155
156 .macro FOUR_ROUNDS_AND_SCHED disp
157 ################################### RND N + 0 ############################
158
159         mov     a, y3           # y3 = a                                # MAJA
160         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
161         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
162
163         addl    \disp(%rsp, SRND), h            # h = k + w + h         # --
164         or      c, y3           # y3 = a|c                              # MAJA
165         vpalignr $4, X2, X3, XTMP0 # XTMP0 = W[-7]
166         mov     f, y2           # y2 = f                                # CH
167         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
168
169         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
170         xor     g, y2           # y2 = f^g                              # CH
171         vpaddd  X0, XTMP0, XTMP0 # XTMP0 = W[-7] + W[-16]# y1 = (e >> 6)# S1
172         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
173
174         and     e, y2           # y2 = (f^g)&e                          # CH
175         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
176         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
177         add     h, d            # d = k + w + h + d                     # --
178
179         and     b, y3           # y3 = (a|c)&b                          # MAJA
180         vpalignr $4, X0, X1, XTMP1      # XTMP1 = W[-15]
181         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
182         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
183
184         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
185         vpsrld  $7, XTMP1, XTMP2
186         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
187         mov     a, T1           # T1 = a                                # MAJB
188         and     c, T1           # T1 = a&c                              # MAJB
189
190         add     y0, y2          # y2 = S1 + CH                          # --
191         vpslld  $(32-7), XTMP1, XTMP3
192         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
193         add     y1, h           # h = k + w + h + S0                    # --
194
195         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
196         vpor    XTMP2, XTMP3, XTMP3     # XTMP3 = W[-15] ror 7
197
198         vpsrld  $18, XTMP1, XTMP2
199         add     y2, h           # h = k + w + h + S0 + S1 + CH = t1 + S0# --
200         add     y3, h           # h = t1 + S0 + MAJ                     # --
201
202
203         ROTATE_ARGS
204
205 ################################### RND N + 1 ############################
206
207         mov     a, y3           # y3 = a                                # MAJA
208         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
209         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
210         offset = \disp + 1*4
211         addl    offset(%rsp, SRND), h   # h = k + w + h         # --
212         or      c, y3           # y3 = a|c                              # MAJA
213
214
215         vpsrld  $3, XTMP1, XTMP4 # XTMP4 = W[-15] >> 3
216         mov     f, y2           # y2 = f                                # CH
217         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
218         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
219         xor     g, y2           # y2 = f^g                              # CH
220
221
222         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
223         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
224         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
225         and     e, y2           # y2 = (f^g)&e                          # CH
226         add     h, d            # d = k + w + h + d                     # --
227
228         vpslld  $(32-18), XTMP1, XTMP1
229         and     b, y3           # y3 = (a|c)&b                          # MAJA
230         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
231
232         vpxor   XTMP1, XTMP3, XTMP3
233         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
234         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
235
236         vpxor   XTMP2, XTMP3, XTMP3     # XTMP3 = W[-15] ror 7 ^ W[-15] ror 18
237         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
238         mov     a, T1           # T1 = a                                # MAJB
239         and     c, T1           # T1 = a&c                              # MAJB
240         add     y0, y2          # y2 = S1 + CH                          # --
241
242         vpxor   XTMP4, XTMP3, XTMP1     # XTMP1 = s0
243         vpshufd $0b11111010, X3, XTMP2  # XTMP2 = W[-2] {BBAA}
244         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
245         add     y1, h           # h = k + w + h + S0                    # --
246
247         vpaddd  XTMP1, XTMP0, XTMP0     # XTMP0 = W[-16] + W[-7] + s0
248         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
249         add     y2, h           # h = k + w + h + S0 + S1 + CH = t1 + S0# --
250         add     y3, h           # h = t1 + S0 + MAJ                     # --
251
252         vpsrld  $10, XTMP2, XTMP4 # XTMP4 = W[-2] >> 10 {BBAA}
253
254
255         ROTATE_ARGS
256
257 ################################### RND N + 2 ############################
258
259         mov     a, y3           # y3 = a                                # MAJA
260         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
261         offset = \disp + 2*4
262         addl    offset(%rsp, SRND), h   # h = k + w + h         # --
263
264         vpsrlq  $19, XTMP2, XTMP3 # XTMP3 = W[-2] ror 19 {xBxA}
265         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
266         or      c, y3           # y3 = a|c                              # MAJA
267         mov     f, y2           # y2 = f                                # CH
268         xor     g, y2           # y2 = f^g                              # CH
269
270         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
271         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
272         vpsrlq  $17, XTMP2, XTMP2       # XTMP2 = W[-2] ror 17 {xBxA}
273         and     e, y2           # y2 = (f^g)&e                          # CH
274
275         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
276         vpxor   XTMP3, XTMP2, XTMP2
277         add     h, d            # d = k + w + h + d                     # --
278         and     b, y3           # y3 = (a|c)&b                          # MAJA
279
280         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
281         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
282         vpxor   XTMP2, XTMP4, XTMP4     # XTMP4 = s1 {xBxA}
283         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
284
285         vpshufb SHUF_00BA, XTMP4, XTMP4 # XTMP4 = s1 {00BA}
286         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
287         rorx    $2, a ,T1       # T1 = (a >> 2)                         # S0
288         vpaddd  XTMP4, XTMP0, XTMP0     # XTMP0 = {..., ..., W[1], W[0]}
289
290         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
291         mov     a, T1           # T1 = a                                # MAJB
292         and     c, T1           # T1 = a&c                              # MAJB
293         add     y0, y2          # y2 = S1 + CH                          # --
294         vpshufd $0b01010000, XTMP0, XTMP2       # XTMP2 = W[-2] {DDCC}
295
296         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
297         add     y1,h            # h = k + w + h + S0                    # --
298         add     y2,d            # d = k + w + h + d + S1 + CH = d + t1  # --
299         add     y2,h            # h = k + w + h + S0 + S1 + CH = t1 + S0# --
300
301         add     y3,h            # h = t1 + S0 + MAJ                     # --
302
303
304         ROTATE_ARGS
305
306 ################################### RND N + 3 ############################
307
308         mov     a, y3           # y3 = a                                # MAJA
309         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
310         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
311         offset = \disp + 3*4
312         addl    offset(%rsp, SRND), h   # h = k + w + h         # --
313         or      c, y3           # y3 = a|c                              # MAJA
314
315
316         vpsrld  $10, XTMP2, XTMP5       # XTMP5 = W[-2] >> 10 {DDCC}
317         mov     f, y2           # y2 = f                                # CH
318         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
319         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
320         xor     g, y2           # y2 = f^g                              # CH
321
322
323         vpsrlq  $19, XTMP2, XTMP3       # XTMP3 = W[-2] ror 19 {xDxC}
324         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
325         and     e, y2           # y2 = (f^g)&e                          # CH
326         add     h, d            # d = k + w + h + d                     # --
327         and     b, y3           # y3 = (a|c)&b                          # MAJA
328
329         vpsrlq  $17, XTMP2, XTMP2       # XTMP2 = W[-2] ror 17 {xDxC}
330         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
331         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
332
333         vpxor   XTMP3, XTMP2, XTMP2
334         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
335         add     y0, y2          # y2 = S1 + CH                          # --
336
337         vpxor   XTMP2, XTMP5, XTMP5     # XTMP5 = s1 {xDxC}
338         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
339         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
340
341         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
342         vpshufb SHUF_DC00, XTMP5, XTMP5 # XTMP5 = s1 {DC00}
343
344         vpaddd  XTMP0, XTMP5, X0        # X0 = {W[3], W[2], W[1], W[0]}
345         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
346         mov     a, T1           # T1 = a                                # MAJB
347         and     c, T1           # T1 = a&c                              # MAJB
348         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
349
350         add     y1, h           # h = k + w + h + S0                    # --
351         add     y2, h           # h = k + w + h + S0 + S1 + CH = t1 + S0# --
352         add     y3, h           # h = t1 + S0 + MAJ                     # --
353
354         ROTATE_ARGS
355         rotate_Xs
356 .endm
357
358 .macro DO_4ROUNDS disp
359 ################################### RND N + 0 ###########################
360
361         mov     f, y2           # y2 = f                                # CH
362         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
363         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
364         xor     g, y2           # y2 = f^g                              # CH
365
366         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
367         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
368         and     e, y2           # y2 = (f^g)&e                          # CH
369
370         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
371         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
372         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
373         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
374         mov     a, y3           # y3 = a                                # MAJA
375
376         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
377         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
378         addl    \disp(%rsp, SRND), h            # h = k + w + h # --
379         or      c, y3           # y3 = a|c                              # MAJA
380
381         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
382         mov     a, T1           # T1 = a                                # MAJB
383         and     b, y3           # y3 = (a|c)&b                          # MAJA
384         and     c, T1           # T1 = a&c                              # MAJB
385         add     y0, y2          # y2 = S1 + CH                          # --
386
387
388         add     h, d            # d = k + w + h + d                     # --
389         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
390         add     y1, h           # h = k + w + h + S0                    # --
391         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
392
393         ROTATE_ARGS
394
395 ################################### RND N + 1 ###########################
396
397         add     y2, old_h       # h = k + w + h + S0 + S1 + CH = t1 + S0# --
398         mov     f, y2           # y2 = f                                # CH
399         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
400         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
401         xor     g, y2           # y2 = f^g                              # CH
402
403         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
404         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
405         and     e, y2           # y2 = (f^g)&e                          # CH
406         add     y3, old_h       # h = t1 + S0 + MAJ                     # --
407
408         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
409         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
410         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
411         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
412         mov     a, y3           # y3 = a                                # MAJA
413
414         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
415         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
416         offset = 4*1 + \disp
417         addl    offset(%rsp, SRND), h           # h = k + w + h # --
418         or      c, y3           # y3 = a|c                              # MAJA
419
420         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
421         mov     a, T1           # T1 = a                                # MAJB
422         and     b, y3           # y3 = (a|c)&b                          # MAJA
423         and     c, T1           # T1 = a&c                              # MAJB
424         add     y0, y2          # y2 = S1 + CH                          # --
425
426
427         add     h, d            # d = k + w + h + d                     # --
428         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
429         add     y1, h           # h = k + w + h + S0                    # --
430
431         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
432
433         ROTATE_ARGS
434
435 ################################### RND N + 2 ##############################
436
437         add     y2, old_h       # h = k + w + h + S0 + S1 + CH = t1 + S0# --
438         mov     f, y2           # y2 = f                                # CH
439         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
440         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
441         xor     g, y2           # y2 = f^g                              # CH
442
443         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
444         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
445         and     e, y2           # y2 = (f^g)&e                          # CH
446         add     y3, old_h       # h = t1 + S0 + MAJ                     # --
447
448         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
449         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
450         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
451         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
452         mov     a, y3           # y3 = a                                # MAJA
453
454         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
455         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
456         offset = 4*2 + \disp
457         addl    offset(%rsp, SRND), h           # h = k + w + h # --
458         or      c, y3           # y3 = a|c                              # MAJA
459
460         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
461         mov     a, T1           # T1 = a                                # MAJB
462         and     b, y3           # y3 = (a|c)&b                          # MAJA
463         and     c, T1           # T1 = a&c                              # MAJB
464         add     y0, y2          # y2 = S1 + CH                          # --
465
466
467         add     h, d            # d = k + w + h + d                     # --
468         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
469         add     y1, h           # h = k + w + h + S0                    # --
470
471         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
472
473         ROTATE_ARGS
474
475 ################################### RND N + 3 ###########################
476
477         add     y2, old_h       # h = k + w + h + S0 + S1 + CH = t1 + S0# --
478         mov     f, y2           # y2 = f                                # CH
479         rorx    $25, e, y0      # y0 = e >> 25                          # S1A
480         rorx    $11, e, y1      # y1 = e >> 11                          # S1B
481         xor     g, y2           # y2 = f^g                              # CH
482
483         xor     y1, y0          # y0 = (e>>25) ^ (e>>11)                # S1
484         rorx    $6, e, y1       # y1 = (e >> 6)                         # S1
485         and     e, y2           # y2 = (f^g)&e                          # CH
486         add     y3, old_h       # h = t1 + S0 + MAJ                     # --
487
488         xor     y1, y0          # y0 = (e>>25) ^ (e>>11) ^ (e>>6)       # S1
489         rorx    $13, a, T1      # T1 = a >> 13                          # S0B
490         xor     g, y2           # y2 = CH = ((f^g)&e)^g                 # CH
491         rorx    $22, a, y1      # y1 = a >> 22                          # S0A
492         mov     a, y3           # y3 = a                                # MAJA
493
494         xor     T1, y1          # y1 = (a>>22) ^ (a>>13)                # S0
495         rorx    $2, a, T1       # T1 = (a >> 2)                         # S0
496         offset = 4*3 + \disp
497         addl    offset(%rsp, SRND), h           # h = k + w + h # --
498         or      c, y3           # y3 = a|c                              # MAJA
499
500         xor     T1, y1          # y1 = (a>>22) ^ (a>>13) ^ (a>>2)       # S0
501         mov     a, T1           # T1 = a                                # MAJB
502         and     b, y3           # y3 = (a|c)&b                          # MAJA
503         and     c, T1           # T1 = a&c                              # MAJB
504         add     y0, y2          # y2 = S1 + CH                          # --
505
506
507         add     h, d            # d = k + w + h + d                     # --
508         or      T1, y3          # y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
509         add     y1, h           # h = k + w + h + S0                    # --
510
511         add     y2, d           # d = k + w + h + d + S1 + CH = d + t1  # --
512
513
514         add     y2, h           # h = k + w + h + S0 + S1 + CH = t1 + S0# --
515
516         add     y3, h           # h = t1 + S0 + MAJ                     # --
517
518         ROTATE_ARGS
519
520 .endm
521
522 ########################################################################
523 ## void sha256_transform_rorx(void *input_data, UINT32 digest[8], UINT64 num_blks)
524 ## arg 1 : pointer to digest
525 ## arg 2 : pointer to input data
526 ## arg 3 : Num blocks
527 ########################################################################
528 .text
529 ENTRY(sha256_transform_rorx)
530 .align 32
531         pushq   %rbx
532         pushq   %r12
533         pushq   %r13
534         pushq   %r14
535         pushq   %r15
536
537         mov     %rsp, %rax
538         subq    $STACK_SIZE, %rsp
539         and     $-32, %rsp      # align rsp to 32 byte boundary
540         mov     %rax, _RSP(%rsp)
541
542
543         shl     $6, NUM_BLKS    # convert to bytes
544         jz      done_hash
545         lea     -64(INP, NUM_BLKS), NUM_BLKS # pointer to last block
546         mov     NUM_BLKS, _INP_END(%rsp)
547
548         cmp     NUM_BLKS, INP
549         je      only_one_block
550
551         ## load initial digest
552         mov     (CTX), a
553         mov     4*1(CTX), b
554         mov     4*2(CTX), c
555         mov     4*3(CTX), d
556         mov     4*4(CTX), e
557         mov     4*5(CTX), f
558         mov     4*6(CTX), g
559         mov     4*7(CTX), h
560
561         vmovdqa  PSHUFFLE_BYTE_FLIP_MASK(%rip), BYTE_FLIP_MASK
562         vmovdqa  _SHUF_00BA(%rip), SHUF_00BA
563         vmovdqa  _SHUF_DC00(%rip), SHUF_DC00
564
565         mov     CTX, _CTX(%rsp)
566
567 loop0:
568         ## Load first 16 dwords from two blocks
569         VMOVDQ  0*32(INP),XTMP0
570         VMOVDQ  1*32(INP),XTMP1
571         VMOVDQ  2*32(INP),XTMP2
572         VMOVDQ  3*32(INP),XTMP3
573
574         ## byte swap data
575         vpshufb BYTE_FLIP_MASK, XTMP0, XTMP0
576         vpshufb BYTE_FLIP_MASK, XTMP1, XTMP1
577         vpshufb BYTE_FLIP_MASK, XTMP2, XTMP2
578         vpshufb BYTE_FLIP_MASK, XTMP3, XTMP3
579
580         ## transpose data into high/low halves
581         vperm2i128      $0x20, XTMP2, XTMP0, X0
582         vperm2i128      $0x31, XTMP2, XTMP0, X1
583         vperm2i128      $0x20, XTMP3, XTMP1, X2
584         vperm2i128      $0x31, XTMP3, XTMP1, X3
585
586 last_block_enter:
587         add     $64, INP
588         mov     INP, _INP(%rsp)
589
590         ## schedule 48 input dwords, by doing 3 rounds of 12 each
591         xor     SRND, SRND
592
593 .align 16
594 loop1:
595         vpaddd  K256+0*32(SRND), X0, XFER
596         vmovdqa XFER, 0*32+_XFER(%rsp, SRND)
597         FOUR_ROUNDS_AND_SCHED   _XFER + 0*32
598
599         vpaddd  K256+1*32(SRND), X0, XFER
600         vmovdqa XFER, 1*32+_XFER(%rsp, SRND)
601         FOUR_ROUNDS_AND_SCHED   _XFER + 1*32
602
603         vpaddd  K256+2*32(SRND), X0, XFER
604         vmovdqa XFER, 2*32+_XFER(%rsp, SRND)
605         FOUR_ROUNDS_AND_SCHED   _XFER + 2*32
606
607         vpaddd  K256+3*32(SRND), X0, XFER
608         vmovdqa XFER, 3*32+_XFER(%rsp, SRND)
609         FOUR_ROUNDS_AND_SCHED   _XFER + 3*32
610
611         add     $4*32, SRND
612         cmp     $3*4*32, SRND
613         jb      loop1
614
615 loop2:
616         ## Do last 16 rounds with no scheduling
617         vpaddd  K256+0*32(SRND), X0, XFER
618         vmovdqa XFER, 0*32+_XFER(%rsp, SRND)
619         DO_4ROUNDS      _XFER + 0*32
620
621         vpaddd  K256+1*32(SRND), X1, XFER
622         vmovdqa XFER, 1*32+_XFER(%rsp, SRND)
623         DO_4ROUNDS      _XFER + 1*32
624         add     $2*32, SRND
625
626         vmovdqa X2, X0
627         vmovdqa X3, X1
628
629         cmp     $4*4*32, SRND
630         jb      loop2
631
632         mov     _CTX(%rsp), CTX
633         mov     _INP(%rsp), INP
634
635         addm    (4*0)(CTX),a
636         addm    (4*1)(CTX),b
637         addm    (4*2)(CTX),c
638         addm    (4*3)(CTX),d
639         addm    (4*4)(CTX),e
640         addm    (4*5)(CTX),f
641         addm    (4*6)(CTX),g
642         addm    (4*7)(CTX),h
643
644         cmp     _INP_END(%rsp), INP
645         ja      done_hash
646
647         #### Do second block using previously scheduled results
648         xor     SRND, SRND
649 .align 16
650 loop3:
651         DO_4ROUNDS       _XFER + 0*32 + 16
652         DO_4ROUNDS       _XFER + 1*32 + 16
653         add     $2*32, SRND
654         cmp     $4*4*32, SRND
655         jb      loop3
656
657         mov     _CTX(%rsp), CTX
658         mov     _INP(%rsp), INP
659         add     $64, INP
660
661         addm    (4*0)(CTX),a
662         addm    (4*1)(CTX),b
663         addm    (4*2)(CTX),c
664         addm    (4*3)(CTX),d
665         addm    (4*4)(CTX),e
666         addm    (4*5)(CTX),f
667         addm    (4*6)(CTX),g
668         addm    (4*7)(CTX),h
669
670         cmp     _INP_END(%rsp), INP
671         jb      loop0
672         ja      done_hash
673
674 do_last_block:
675         VMOVDQ  0*16(INP),XWORD0
676         VMOVDQ  1*16(INP),XWORD1
677         VMOVDQ  2*16(INP),XWORD2
678         VMOVDQ  3*16(INP),XWORD3
679
680         vpshufb X_BYTE_FLIP_MASK, XWORD0, XWORD0
681         vpshufb X_BYTE_FLIP_MASK, XWORD1, XWORD1
682         vpshufb X_BYTE_FLIP_MASK, XWORD2, XWORD2
683         vpshufb X_BYTE_FLIP_MASK, XWORD3, XWORD3
684
685         jmp     last_block_enter
686
687 only_one_block:
688
689         ## load initial digest
690         mov     (4*0)(CTX),a
691         mov     (4*1)(CTX),b
692         mov     (4*2)(CTX),c
693         mov     (4*3)(CTX),d
694         mov     (4*4)(CTX),e
695         mov     (4*5)(CTX),f
696         mov     (4*6)(CTX),g
697         mov     (4*7)(CTX),h
698
699         vmovdqa PSHUFFLE_BYTE_FLIP_MASK(%rip), BYTE_FLIP_MASK
700         vmovdqa _SHUF_00BA(%rip), SHUF_00BA
701         vmovdqa _SHUF_DC00(%rip), SHUF_DC00
702
703         mov     CTX, _CTX(%rsp)
704         jmp     do_last_block
705
706 done_hash:
707
708         mov     _RSP(%rsp), %rsp
709
710         popq    %r15
711         popq    %r14
712         popq    %r13
713         popq    %r12
714         popq    %rbx
715         ret
716 ENDPROC(sha256_transform_rorx)
717
718 .section        .rodata.cst512.K256, "aM", @progbits, 512
719 .align 64
720 K256:
721         .long   0x428a2f98,0x71374491,0xb5c0fbcf,0xe9b5dba5
722         .long   0x428a2f98,0x71374491,0xb5c0fbcf,0xe9b5dba5
723         .long   0x3956c25b,0x59f111f1,0x923f82a4,0xab1c5ed5
724         .long   0x3956c25b,0x59f111f1,0x923f82a4,0xab1c5ed5
725         .long   0xd807aa98,0x12835b01,0x243185be,0x550c7dc3
726         .long   0xd807aa98,0x12835b01,0x243185be,0x550c7dc3
727         .long   0x72be5d74,0x80deb1fe,0x9bdc06a7,0xc19bf174
728         .long   0x72be5d74,0x80deb1fe,0x9bdc06a7,0xc19bf174
729         .long   0xe49b69c1,0xefbe4786,0x0fc19dc6,0x240ca1cc
730         .long   0xe49b69c1,0xefbe4786,0x0fc19dc6,0x240ca1cc
731         .long   0x2de92c6f,0x4a7484aa,0x5cb0a9dc,0x76f988da
732         .long   0x2de92c6f,0x4a7484aa,0x5cb0a9dc,0x76f988da
733         .long   0x983e5152,0xa831c66d,0xb00327c8,0xbf597fc7
734         .long   0x983e5152,0xa831c66d,0xb00327c8,0xbf597fc7
735         .long   0xc6e00bf3,0xd5a79147,0x06ca6351,0x14292967
736         .long   0xc6e00bf3,0xd5a79147,0x06ca6351,0x14292967
737         .long   0x27b70a85,0x2e1b2138,0x4d2c6dfc,0x53380d13
738         .long   0x27b70a85,0x2e1b2138,0x4d2c6dfc,0x53380d13
739         .long   0x650a7354,0x766a0abb,0x81c2c92e,0x92722c85
740         .long   0x650a7354,0x766a0abb,0x81c2c92e,0x92722c85
741         .long   0xa2bfe8a1,0xa81a664b,0xc24b8b70,0xc76c51a3
742         .long   0xa2bfe8a1,0xa81a664b,0xc24b8b70,0xc76c51a3
743         .long   0xd192e819,0xd6990624,0xf40e3585,0x106aa070
744         .long   0xd192e819,0xd6990624,0xf40e3585,0x106aa070
745         .long   0x19a4c116,0x1e376c08,0x2748774c,0x34b0bcb5
746         .long   0x19a4c116,0x1e376c08,0x2748774c,0x34b0bcb5
747         .long   0x391c0cb3,0x4ed8aa4a,0x5b9cca4f,0x682e6ff3
748         .long   0x391c0cb3,0x4ed8aa4a,0x5b9cca4f,0x682e6ff3
749         .long   0x748f82ee,0x78a5636f,0x84c87814,0x8cc70208
750         .long   0x748f82ee,0x78a5636f,0x84c87814,0x8cc70208
751         .long   0x90befffa,0xa4506ceb,0xbef9a3f7,0xc67178f2
752         .long   0x90befffa,0xa4506ceb,0xbef9a3f7,0xc67178f2
753
754 .section        .rodata.cst32.PSHUFFLE_BYTE_FLIP_MASK, "aM", @progbits, 32
755 .align 32
756 PSHUFFLE_BYTE_FLIP_MASK:
757         .octa 0x0c0d0e0f08090a0b0405060700010203,0x0c0d0e0f08090a0b0405060700010203
758
759 # shuffle xBxA -> 00BA
760 .section        .rodata.cst32._SHUF_00BA, "aM", @progbits, 32
761 .align 32
762 _SHUF_00BA:
763         .octa 0xFFFFFFFFFFFFFFFF0b0a090803020100,0xFFFFFFFFFFFFFFFF0b0a090803020100
764
765 # shuffle xDxC -> DC00
766 .section        .rodata.cst32._SHUF_DC00, "aM", @progbits, 32
767 .align 32
768 _SHUF_DC00:
769         .octa 0x0b0a090803020100FFFFFFFFFFFFFFFF,0x0b0a090803020100FFFFFFFFFFFFFFFF
770
771 #endif