root/arch/sparc/lib/NG4memcpy.S

/* [<][>][^][v][top][bottom][index][help] */
   1 /* SPDX-License-Identifier: GPL-2.0 */
   2 /* NG4memcpy.S: Niagara-4 optimized memcpy.
   3  *
   4  * Copyright (C) 2012 David S. Miller (davem@davemloft.net)
   5  */
   6 
   7 #ifdef __KERNEL__
   8 #include <linux/linkage.h>
   9 #include <asm/visasm.h>
  10 #include <asm/asi.h>
  11 #define GLOBAL_SPARE    %g7
  12 #else
  13 #define ASI_BLK_INIT_QUAD_LDD_P 0xe2
  14 #define FPRS_FEF  0x04
  15 
  16 /* On T4 it is very expensive to access ASRs like %fprs and
  17  * %asi, avoiding a read or a write can save ~50 cycles.
  18  */
  19 #define FPU_ENTER                       \
  20         rd      %fprs, %o5;             \
  21         andcc   %o5, FPRS_FEF, %g0;     \
  22         be,a,pn %icc, 999f;             \
  23          wr     %g0, FPRS_FEF, %fprs;   \
  24         999:
  25 
  26 #ifdef MEMCPY_DEBUG
  27 #define VISEntryHalf FPU_ENTER; \
  28                      clr %g1; clr %g2; clr %g3; clr %g5; subcc %g0, %g0, %g0;
  29 #define VISExitHalf and %o5, FPRS_FEF, %o5; wr %o5, 0x0, %fprs
  30 #else
  31 #define VISEntryHalf FPU_ENTER
  32 #define VISExitHalf and %o5, FPRS_FEF, %o5; wr %o5, 0x0, %fprs
  33 #endif
  34 
  35 #define GLOBAL_SPARE    %g5
  36 #endif
  37 
  38 #ifndef STORE_ASI
  39 #ifndef SIMULATE_NIAGARA_ON_NON_NIAGARA
  40 #define STORE_ASI       ASI_BLK_INIT_QUAD_LDD_P
  41 #else
  42 #define STORE_ASI       0x80            /* ASI_P */
  43 #endif
  44 #endif
  45 
  46 #if !defined(EX_LD) && !defined(EX_ST)
  47 #define NON_USER_COPY
  48 #endif
  49 
  50 #ifndef EX_LD
  51 #define EX_LD(x,y)      x
  52 #endif
  53 #ifndef EX_LD_FP
  54 #define EX_LD_FP(x,y)   x
  55 #endif
  56 
  57 #ifndef EX_ST
  58 #define EX_ST(x,y)      x
  59 #endif
  60 #ifndef EX_ST_FP
  61 #define EX_ST_FP(x,y)   x
  62 #endif
  63 
  64 
  65 #ifndef LOAD
  66 #define LOAD(type,addr,dest)    type [addr], dest
  67 #endif
  68 
  69 #ifndef STORE
  70 #ifndef MEMCPY_DEBUG
  71 #define STORE(type,src,addr)    type src, [addr]
  72 #else
  73 #define STORE(type,src,addr)    type##a src, [addr] %asi
  74 #endif
  75 #endif
  76 
  77 #ifndef STORE_INIT
  78 #define STORE_INIT(src,addr)    stxa src, [addr] STORE_ASI
  79 #endif
  80 
  81 #ifndef FUNC_NAME
  82 #define FUNC_NAME       NG4memcpy
  83 #endif
  84 #ifndef PREAMBLE
  85 #define PREAMBLE
  86 #endif
  87 
  88 #ifndef XCC
  89 #define XCC xcc
  90 #endif
  91 
  92         .register       %g2,#scratch
  93         .register       %g3,#scratch
  94 
  95         .text
  96 #ifndef EX_RETVAL
  97 #define EX_RETVAL(x)    x
  98 #endif
  99         .align          64
 100 
 101         .globl  FUNC_NAME
 102         .type   FUNC_NAME,#function
 103 FUNC_NAME:      /* %o0=dst, %o1=src, %o2=len */
 104 #ifdef MEMCPY_DEBUG
 105         wr              %g0, 0x80, %asi
 106 #endif
 107         srlx            %o2, 31, %g2
 108         cmp             %g2, 0
 109         tne             %XCC, 5
 110         PREAMBLE
 111         mov             %o0, %o3
 112         brz,pn          %o2, .Lexit
 113          cmp            %o2, 3
 114         ble,pn          %icc, .Ltiny
 115          cmp            %o2, 19
 116         ble,pn          %icc, .Lsmall
 117          or             %o0, %o1, %g2
 118         cmp             %o2, 128
 119         bl,pn           %icc, .Lmedium
 120          nop
 121 
 122 .Llarge:/* len >= 0x80 */
 123         /* First get dest 8 byte aligned.  */
 124         sub             %g0, %o0, %g1
 125         and             %g1, 0x7, %g1
 126         brz,pt          %g1, 51f
 127          sub            %o2, %g1, %o2
 128 
 129 
 130 1:      EX_LD(LOAD(ldub, %o1 + 0x00, %g2), memcpy_retl_o2_plus_g1)
 131         add             %o1, 1, %o1
 132         subcc           %g1, 1, %g1
 133         add             %o0, 1, %o0
 134         bne,pt          %icc, 1b
 135          EX_ST(STORE(stb, %g2, %o0 - 0x01), memcpy_retl_o2_plus_g1_plus_1)
 136 
 137 51:     LOAD(prefetch, %o1 + 0x040, #n_reads_strong)
 138         LOAD(prefetch, %o1 + 0x080, #n_reads_strong)
 139         LOAD(prefetch, %o1 + 0x0c0, #n_reads_strong)
 140         LOAD(prefetch, %o1 + 0x100, #n_reads_strong)
 141         LOAD(prefetch, %o1 + 0x140, #n_reads_strong)
 142         LOAD(prefetch, %o1 + 0x180, #n_reads_strong)
 143         LOAD(prefetch, %o1 + 0x1c0, #n_reads_strong)
 144         LOAD(prefetch, %o1 + 0x200, #n_reads_strong)
 145 
 146         /* Check if we can use the straight fully aligned
 147          * loop, or we require the alignaddr/faligndata variant.
 148          */
 149         andcc           %o1, 0x7, %o5
 150         bne,pn          %icc, .Llarge_src_unaligned
 151          sub            %g0, %o0, %g1
 152 
 153         /* Legitimize the use of initializing stores by getting dest
 154          * to be 64-byte aligned.
 155          */
 156         and             %g1, 0x3f, %g1
 157         brz,pt          %g1, .Llarge_aligned
 158          sub            %o2, %g1, %o2
 159 
 160 1:      EX_LD(LOAD(ldx, %o1 + 0x00, %g2), memcpy_retl_o2_plus_g1)
 161         add             %o1, 8, %o1
 162         subcc           %g1, 8, %g1
 163         add             %o0, 8, %o0
 164         bne,pt          %icc, 1b
 165          EX_ST(STORE(stx, %g2, %o0 - 0x08), memcpy_retl_o2_plus_g1_plus_8)
 166 
 167 .Llarge_aligned:
 168         /* len >= 0x80 && src 8-byte aligned && dest 8-byte aligned */
 169         andn            %o2, 0x3f, %o4
 170         sub             %o2, %o4, %o2
 171 
 172 1:      EX_LD(LOAD(ldx, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o4)
 173         add             %o1, 0x40, %o1
 174         EX_LD(LOAD(ldx, %o1 - 0x38, %g2), memcpy_retl_o2_plus_o4)
 175         subcc           %o4, 0x40, %o4
 176         EX_LD(LOAD(ldx, %o1 - 0x30, %g3), memcpy_retl_o2_plus_o4_plus_64)
 177         EX_LD(LOAD(ldx, %o1 - 0x28, GLOBAL_SPARE), memcpy_retl_o2_plus_o4_plus_64)
 178         EX_LD(LOAD(ldx, %o1 - 0x20, %o5), memcpy_retl_o2_plus_o4_plus_64)
 179         EX_ST(STORE_INIT(%g1, %o0), memcpy_retl_o2_plus_o4_plus_64)
 180         add             %o0, 0x08, %o0
 181         EX_ST(STORE_INIT(%g2, %o0), memcpy_retl_o2_plus_o4_plus_56)
 182         add             %o0, 0x08, %o0
 183         EX_LD(LOAD(ldx, %o1 - 0x18, %g2), memcpy_retl_o2_plus_o4_plus_48)
 184         EX_ST(STORE_INIT(%g3, %o0), memcpy_retl_o2_plus_o4_plus_48)
 185         add             %o0, 0x08, %o0
 186         EX_LD(LOAD(ldx, %o1 - 0x10, %g3), memcpy_retl_o2_plus_o4_plus_40)
 187         EX_ST(STORE_INIT(GLOBAL_SPARE, %o0), memcpy_retl_o2_plus_o4_plus_40)
 188         add             %o0, 0x08, %o0
 189         EX_LD(LOAD(ldx, %o1 - 0x08, GLOBAL_SPARE), memcpy_retl_o2_plus_o4_plus_32)
 190         EX_ST(STORE_INIT(%o5, %o0), memcpy_retl_o2_plus_o4_plus_32)
 191         add             %o0, 0x08, %o0
 192         EX_ST(STORE_INIT(%g2, %o0), memcpy_retl_o2_plus_o4_plus_24)
 193         add             %o0, 0x08, %o0
 194         EX_ST(STORE_INIT(%g3, %o0), memcpy_retl_o2_plus_o4_plus_16)
 195         add             %o0, 0x08, %o0
 196         EX_ST(STORE_INIT(GLOBAL_SPARE, %o0), memcpy_retl_o2_plus_o4_plus_8)
 197         add             %o0, 0x08, %o0
 198         bne,pt          %icc, 1b
 199          LOAD(prefetch, %o1 + 0x200, #n_reads_strong)
 200 
 201         membar          #StoreLoad | #StoreStore
 202 
 203         brz,pn          %o2, .Lexit
 204          cmp            %o2, 19
 205         ble,pn          %icc, .Lsmall_unaligned
 206          nop
 207         ba,a,pt         %icc, .Lmedium_noprefetch
 208 
 209 .Lexit: retl
 210          mov            EX_RETVAL(%o3), %o0
 211 
 212 .Llarge_src_unaligned:
 213 #ifdef NON_USER_COPY
 214         VISEntryHalfFast(.Lmedium_vis_entry_fail)
 215 #else
 216         VISEntryHalf
 217 #endif
 218         andn            %o2, 0x3f, %o4
 219         sub             %o2, %o4, %o2
 220         alignaddr       %o1, %g0, %g1
 221         add             %o1, %o4, %o1
 222         EX_LD_FP(LOAD(ldd, %g1 + 0x00, %f0), memcpy_retl_o2_plus_o4)
 223 1:      EX_LD_FP(LOAD(ldd, %g1 + 0x08, %f2), memcpy_retl_o2_plus_o4)
 224         subcc           %o4, 0x40, %o4
 225         EX_LD_FP(LOAD(ldd, %g1 + 0x10, %f4), memcpy_retl_o2_plus_o4_plus_64)
 226         EX_LD_FP(LOAD(ldd, %g1 + 0x18, %f6), memcpy_retl_o2_plus_o4_plus_64)
 227         EX_LD_FP(LOAD(ldd, %g1 + 0x20, %f8), memcpy_retl_o2_plus_o4_plus_64)
 228         EX_LD_FP(LOAD(ldd, %g1 + 0x28, %f10), memcpy_retl_o2_plus_o4_plus_64)
 229         EX_LD_FP(LOAD(ldd, %g1 + 0x30, %f12), memcpy_retl_o2_plus_o4_plus_64)
 230         EX_LD_FP(LOAD(ldd, %g1 + 0x38, %f14), memcpy_retl_o2_plus_o4_plus_64)
 231         faligndata      %f0, %f2, %f16
 232         EX_LD_FP(LOAD(ldd, %g1 + 0x40, %f0), memcpy_retl_o2_plus_o4_plus_64)
 233         faligndata      %f2, %f4, %f18
 234         add             %g1, 0x40, %g1
 235         faligndata      %f4, %f6, %f20
 236         faligndata      %f6, %f8, %f22
 237         faligndata      %f8, %f10, %f24
 238         faligndata      %f10, %f12, %f26
 239         faligndata      %f12, %f14, %f28
 240         faligndata      %f14, %f0, %f30
 241         EX_ST_FP(STORE(std, %f16, %o0 + 0x00), memcpy_retl_o2_plus_o4_plus_64)
 242         EX_ST_FP(STORE(std, %f18, %o0 + 0x08), memcpy_retl_o2_plus_o4_plus_56)
 243         EX_ST_FP(STORE(std, %f20, %o0 + 0x10), memcpy_retl_o2_plus_o4_plus_48)
 244         EX_ST_FP(STORE(std, %f22, %o0 + 0x18), memcpy_retl_o2_plus_o4_plus_40)
 245         EX_ST_FP(STORE(std, %f24, %o0 + 0x20), memcpy_retl_o2_plus_o4_plus_32)
 246         EX_ST_FP(STORE(std, %f26, %o0 + 0x28), memcpy_retl_o2_plus_o4_plus_24)
 247         EX_ST_FP(STORE(std, %f28, %o0 + 0x30), memcpy_retl_o2_plus_o4_plus_16)
 248         EX_ST_FP(STORE(std, %f30, %o0 + 0x38), memcpy_retl_o2_plus_o4_plus_8)
 249         add             %o0, 0x40, %o0
 250         bne,pt          %icc, 1b
 251          LOAD(prefetch, %g1 + 0x200, #n_reads_strong)
 252 #ifdef NON_USER_COPY
 253         VISExitHalfFast
 254 #else
 255         VISExitHalf
 256 #endif
 257         brz,pn          %o2, .Lexit
 258          cmp            %o2, 19
 259         ble,pn          %icc, .Lsmall_unaligned
 260          nop
 261         ba,a,pt         %icc, .Lmedium_unaligned
 262 
 263 #ifdef NON_USER_COPY
 264 .Lmedium_vis_entry_fail:
 265          or             %o0, %o1, %g2
 266 #endif
 267 .Lmedium:
 268         LOAD(prefetch, %o1 + 0x40, #n_reads_strong)
 269         andcc           %g2, 0x7, %g0
 270         bne,pn          %icc, .Lmedium_unaligned
 271          nop
 272 .Lmedium_noprefetch:
 273         andncc          %o2, 0x20 - 1, %o5
 274         be,pn           %icc, 2f
 275          sub            %o2, %o5, %o2
 276 1:      EX_LD(LOAD(ldx, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o5)
 277         EX_LD(LOAD(ldx, %o1 + 0x08, %g2), memcpy_retl_o2_plus_o5)
 278         EX_LD(LOAD(ldx, %o1 + 0x10, GLOBAL_SPARE), memcpy_retl_o2_plus_o5)
 279         EX_LD(LOAD(ldx, %o1 + 0x18, %o4), memcpy_retl_o2_plus_o5)
 280         add             %o1, 0x20, %o1
 281         subcc           %o5, 0x20, %o5
 282         EX_ST(STORE(stx, %g1, %o0 + 0x00), memcpy_retl_o2_plus_o5_plus_32)
 283         EX_ST(STORE(stx, %g2, %o0 + 0x08), memcpy_retl_o2_plus_o5_plus_24)
 284         EX_ST(STORE(stx, GLOBAL_SPARE, %o0 + 0x10), memcpy_retl_o2_plus_o5_plus_24)
 285         EX_ST(STORE(stx, %o4, %o0 + 0x18), memcpy_retl_o2_plus_o5_plus_8)
 286         bne,pt          %icc, 1b
 287          add            %o0, 0x20, %o0
 288 2:      andcc           %o2, 0x18, %o5
 289         be,pt           %icc, 3f
 290          sub            %o2, %o5, %o2
 291 
 292 1:      EX_LD(LOAD(ldx, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o5)
 293         add             %o1, 0x08, %o1
 294         add             %o0, 0x08, %o0
 295         subcc           %o5, 0x08, %o5
 296         bne,pt          %icc, 1b
 297          EX_ST(STORE(stx, %g1, %o0 - 0x08), memcpy_retl_o2_plus_o5_plus_8)
 298 3:      brz,pt          %o2, .Lexit
 299          cmp            %o2, 0x04
 300         bl,pn           %icc, .Ltiny
 301          nop
 302         EX_LD(LOAD(lduw, %o1 + 0x00, %g1), memcpy_retl_o2)
 303         add             %o1, 0x04, %o1
 304         add             %o0, 0x04, %o0
 305         subcc           %o2, 0x04, %o2
 306         bne,pn          %icc, .Ltiny
 307          EX_ST(STORE(stw, %g1, %o0 - 0x04), memcpy_retl_o2_plus_4)
 308         ba,a,pt         %icc, .Lexit
 309 .Lmedium_unaligned:
 310         /* First get dest 8 byte aligned.  */
 311         sub             %g0, %o0, %g1
 312         and             %g1, 0x7, %g1
 313         brz,pt          %g1, 2f
 314          sub            %o2, %g1, %o2
 315 
 316 1:      EX_LD(LOAD(ldub, %o1 + 0x00, %g2), memcpy_retl_o2_plus_g1)
 317         add             %o1, 1, %o1
 318         subcc           %g1, 1, %g1
 319         add             %o0, 1, %o0
 320         bne,pt          %icc, 1b
 321          EX_ST(STORE(stb, %g2, %o0 - 0x01), memcpy_retl_o2_plus_g1_plus_1)
 322 2:
 323         and             %o1, 0x7, %g1
 324         brz,pn          %g1, .Lmedium_noprefetch
 325          sll            %g1, 3, %g1
 326         mov             64, %g2
 327         sub             %g2, %g1, %g2
 328         andn            %o1, 0x7, %o1
 329         EX_LD(LOAD(ldx, %o1 + 0x00, %o4), memcpy_retl_o2)
 330         sllx            %o4, %g1, %o4
 331         andn            %o2, 0x08 - 1, %o5
 332         sub             %o2, %o5, %o2
 333 1:      EX_LD(LOAD(ldx, %o1 + 0x08, %g3), memcpy_retl_o2_plus_o5)
 334         add             %o1, 0x08, %o1
 335         subcc           %o5, 0x08, %o5
 336         srlx            %g3, %g2, GLOBAL_SPARE
 337         or              GLOBAL_SPARE, %o4, GLOBAL_SPARE
 338         EX_ST(STORE(stx, GLOBAL_SPARE, %o0 + 0x00), memcpy_retl_o2_plus_o5_plus_8)
 339         add             %o0, 0x08, %o0
 340         bne,pt          %icc, 1b
 341          sllx           %g3, %g1, %o4
 342         srl             %g1, 3, %g1
 343         add             %o1, %g1, %o1
 344         brz,pn          %o2, .Lexit
 345          nop
 346         ba,pt           %icc, .Lsmall_unaligned
 347 
 348 .Ltiny:
 349         EX_LD(LOAD(ldub, %o1 + 0x00, %g1), memcpy_retl_o2)
 350         subcc           %o2, 1, %o2
 351         be,pn           %icc, .Lexit
 352          EX_ST(STORE(stb, %g1, %o0 + 0x00), memcpy_retl_o2_plus_1)
 353         EX_LD(LOAD(ldub, %o1 + 0x01, %g1), memcpy_retl_o2)
 354         subcc           %o2, 1, %o2
 355         be,pn           %icc, .Lexit
 356          EX_ST(STORE(stb, %g1, %o0 + 0x01), memcpy_retl_o2_plus_1)
 357         EX_LD(LOAD(ldub, %o1 + 0x02, %g1), memcpy_retl_o2)
 358         ba,pt           %icc, .Lexit
 359          EX_ST(STORE(stb, %g1, %o0 + 0x02), memcpy_retl_o2)
 360 
 361 .Lsmall:
 362         andcc           %g2, 0x3, %g0
 363         bne,pn          %icc, .Lsmall_unaligned
 364          andn           %o2, 0x4 - 1, %o5
 365         sub             %o2, %o5, %o2
 366 1:
 367         EX_LD(LOAD(lduw, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o5)
 368         add             %o1, 0x04, %o1
 369         subcc           %o5, 0x04, %o5
 370         add             %o0, 0x04, %o0
 371         bne,pt          %icc, 1b
 372          EX_ST(STORE(stw, %g1, %o0 - 0x04), memcpy_retl_o2_plus_o5_plus_4)
 373         brz,pt          %o2, .Lexit
 374          nop
 375         ba,a,pt         %icc, .Ltiny
 376 
 377 .Lsmall_unaligned:
 378 1:      EX_LD(LOAD(ldub, %o1 + 0x00, %g1), memcpy_retl_o2)
 379         add             %o1, 1, %o1
 380         add             %o0, 1, %o0
 381         subcc           %o2, 1, %o2
 382         bne,pt          %icc, 1b
 383          EX_ST(STORE(stb, %g1, %o0 - 0x01), memcpy_retl_o2_plus_1)
 384         ba,a,pt         %icc, .Lexit
 385          nop
 386         .size           FUNC_NAME, .-FUNC_NAME

/* [<][>][^][v][top][bottom][index][help] */