CbC/CbC_gcc: gcc/config/rs6000/xmmintrin.h annotate

annotate gcc/config/rs6000/xmmintrin.h @ 131:84e7813d76e9

gcc-8.2

author	mir3636
date	Thu, 25 Oct 2018 07:37:49 +0900
parents	04ced10e8804
children	1830386684a0

rev	line source
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1 /* Copyright (C) 2002-2018 Free Software Foundation, Inc.
111 04ced10e8804 gcc 7 kono parents: diff changeset	2
04ced10e8804 gcc 7 kono parents: diff changeset	3 This file is part of GCC.
04ced10e8804 gcc 7 kono parents: diff changeset	4
04ced10e8804 gcc 7 kono parents: diff changeset	5 GCC is free software; you can redistribute it and/or modify
04ced10e8804 gcc 7 kono parents: diff changeset	6 it under the terms of the GNU General Public License as published by
04ced10e8804 gcc 7 kono parents: diff changeset	7 the Free Software Foundation; either version 3, or (at your option)
04ced10e8804 gcc 7 kono parents: diff changeset	8 any later version.
04ced10e8804 gcc 7 kono parents: diff changeset	9
04ced10e8804 gcc 7 kono parents: diff changeset	10 GCC is distributed in the hope that it will be useful,
04ced10e8804 gcc 7 kono parents: diff changeset	11 but WITHOUT ANY WARRANTY; without even the implied warranty of
04ced10e8804 gcc 7 kono parents: diff changeset	12 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
04ced10e8804 gcc 7 kono parents: diff changeset	13 GNU General Public License for more details.
04ced10e8804 gcc 7 kono parents: diff changeset	14
04ced10e8804 gcc 7 kono parents: diff changeset	15 Under Section 7 of GPL version 3, you are granted additional
04ced10e8804 gcc 7 kono parents: diff changeset	16 permissions described in the GCC Runtime Library Exception, version
04ced10e8804 gcc 7 kono parents: diff changeset	17 3.1, as published by the Free Software Foundation.
04ced10e8804 gcc 7 kono parents: diff changeset	18
04ced10e8804 gcc 7 kono parents: diff changeset	19 You should have received a copy of the GNU General Public License and
04ced10e8804 gcc 7 kono parents: diff changeset	20 a copy of the GCC Runtime Library Exception along with this program;
04ced10e8804 gcc 7 kono parents: diff changeset	21 see the files COPYING3 and COPYING.RUNTIME respectively. If not, see
04ced10e8804 gcc 7 kono parents: diff changeset	22 <http://www.gnu.org/licenses/>. */
04ced10e8804 gcc 7 kono parents: diff changeset	23
04ced10e8804 gcc 7 kono parents: diff changeset	24 /* Implemented from the specification included in the Intel C++ Compiler
04ced10e8804 gcc 7 kono parents: diff changeset	25 User Guide and Reference, version 9.0. */
04ced10e8804 gcc 7 kono parents: diff changeset	26
04ced10e8804 gcc 7 kono parents: diff changeset	27 #ifndef NO_WARN_X86_INTRINSICS
04ced10e8804 gcc 7 kono parents: diff changeset	28 /* This header is distributed to simplify porting x86_64 code that
04ced10e8804 gcc 7 kono parents: diff changeset	29 makes explicit use of Intel intrinsics to powerpc64le.
04ced10e8804 gcc 7 kono parents: diff changeset	30 It is the user's responsibility to determine if the results are
04ced10e8804 gcc 7 kono parents: diff changeset	31 acceptable and make additional changes as necessary.
04ced10e8804 gcc 7 kono parents: diff changeset	32 Note that much code that uses Intel intrinsics can be rewritten in
04ced10e8804 gcc 7 kono parents: diff changeset	33 standard C or GNU C extensions, which are more portable and better
04ced10e8804 gcc 7 kono parents: diff changeset	34 optimized across multiple targets.
04ced10e8804 gcc 7 kono parents: diff changeset	35
04ced10e8804 gcc 7 kono parents: diff changeset	36 In the specific case of X86 SSE (__m128) intrinsics, the PowerPC
04ced10e8804 gcc 7 kono parents: diff changeset	37 VMX/VSX ISA is a good match for vector float SIMD operations.
04ced10e8804 gcc 7 kono parents: diff changeset	38 However scalar float operations in vector (XMM) registers require
04ced10e8804 gcc 7 kono parents: diff changeset	39 the POWER8 VSX ISA (2.07) level. Also there are important
04ced10e8804 gcc 7 kono parents: diff changeset	40 differences for data format and placement of float scalars in the
04ced10e8804 gcc 7 kono parents: diff changeset	41 vector register. For PowerISA Scalar floats in FPRs (left most
04ced10e8804 gcc 7 kono parents: diff changeset	42 64-bits of the low 32 VSRs) is in double format, while X86_64 SSE
04ced10e8804 gcc 7 kono parents: diff changeset	43 uses the right most 32-bits of the XMM. These differences require
04ced10e8804 gcc 7 kono parents: diff changeset	44 extra steps on POWER to match the SSE scalar float semantics.
04ced10e8804 gcc 7 kono parents: diff changeset	45
04ced10e8804 gcc 7 kono parents: diff changeset	46 Most SSE scalar float intrinsic operations can be performed more
04ced10e8804 gcc 7 kono parents: diff changeset	47 efficiently as C language float scalar operations or optimized to
04ced10e8804 gcc 7 kono parents: diff changeset	48 use vector SIMD operations. We recommend this for new applications.
04ced10e8804 gcc 7 kono parents: diff changeset	49
04ced10e8804 gcc 7 kono parents: diff changeset	50 Another difference is the format and details of the X86_64 MXSCR vs
04ced10e8804 gcc 7 kono parents: diff changeset	51 the PowerISA FPSCR / VSCR registers. We recommend applications
04ced10e8804 gcc 7 kono parents: diff changeset	52 replace direct access to the MXSCR with the more portable <fenv.h>
04ced10e8804 gcc 7 kono parents: diff changeset	53 Posix APIs. */
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	54 #error "Please read comment above. Use -DNO_WARN_X86_INTRINSICS to disable this error."
111 04ced10e8804 gcc 7 kono parents: diff changeset	55 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	56
04ced10e8804 gcc 7 kono parents: diff changeset	57 #ifndef _XMMINTRIN_H_INCLUDED
04ced10e8804 gcc 7 kono parents: diff changeset	58 #define _XMMINTRIN_H_INCLUDED
04ced10e8804 gcc 7 kono parents: diff changeset	59
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	60 /* Define four value permute mask */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	61 #define _MM_SHUFFLE(w,x,y,z) (((w) << 6) \| ((x) << 4) \| ((y) << 2) \| (z))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	62
111 04ced10e8804 gcc 7 kono parents: diff changeset	63 #include <altivec.h>
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	64
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	65 /* Avoid collisions between altivec.h and strict adherence to C++ and
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	66 C11 standards. This should eventually be done inside altivec.h itself,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	67 but only after testing a full distro build. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	68 #if defined(__STRICT_ANSI__) && (defined(__cplusplus) \|\| \
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	69 (defined(__STDC_VERSION__) && \
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	70 __STDC_VERSION__ >= 201112L))
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	71 #undef vector
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	72 #undef pixel
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	73 #undef bool
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	74 #endif
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	75
111 04ced10e8804 gcc 7 kono parents: diff changeset	76 #include <assert.h>
04ced10e8804 gcc 7 kono parents: diff changeset	77
04ced10e8804 gcc 7 kono parents: diff changeset	78 /* We need type definitions from the MMX header file. */
04ced10e8804 gcc 7 kono parents: diff changeset	79 #include <mmintrin.h>
04ced10e8804 gcc 7 kono parents: diff changeset	80
04ced10e8804 gcc 7 kono parents: diff changeset	81 /* Get _mm_malloc () and _mm_free (). */
04ced10e8804 gcc 7 kono parents: diff changeset	82 #include <mm_malloc.h>
04ced10e8804 gcc 7 kono parents: diff changeset	83
04ced10e8804 gcc 7 kono parents: diff changeset	84 /* The Intel API is flexible enough that we must allow aliasing with other
04ced10e8804 gcc 7 kono parents: diff changeset	85 vector types, and their scalar components. */
04ced10e8804 gcc 7 kono parents: diff changeset	86 typedef float __m128 __attribute__ ((__vector_size__ (16), __may_alias__));
04ced10e8804 gcc 7 kono parents: diff changeset	87
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	88 /* Unaligned version of the same type. */
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	89 typedef float __m128_u __attribute__ ((__vector_size__ (16), __may_alias__,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	90 __aligned__ (1)));
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	91
111 04ced10e8804 gcc 7 kono parents: diff changeset	92 /* Internal data types for implementing the intrinsics. */
04ced10e8804 gcc 7 kono parents: diff changeset	93 typedef float __v4sf __attribute__ ((__vector_size__ (16)));
04ced10e8804 gcc 7 kono parents: diff changeset	94
04ced10e8804 gcc 7 kono parents: diff changeset	95 /* Create an undefined vector. */
04ced10e8804 gcc 7 kono parents: diff changeset	96 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	97 _mm_undefined_ps (void)
04ced10e8804 gcc 7 kono parents: diff changeset	98 {
04ced10e8804 gcc 7 kono parents: diff changeset	99 __m128 __Y = __Y;
04ced10e8804 gcc 7 kono parents: diff changeset	100 return __Y;
04ced10e8804 gcc 7 kono parents: diff changeset	101 }
04ced10e8804 gcc 7 kono parents: diff changeset	102
04ced10e8804 gcc 7 kono parents: diff changeset	103 /* Create a vector of zeros. */
04ced10e8804 gcc 7 kono parents: diff changeset	104 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	105 _mm_setzero_ps (void)
04ced10e8804 gcc 7 kono parents: diff changeset	106 {
04ced10e8804 gcc 7 kono parents: diff changeset	107 return __extension__ (__m128){ 0.0f, 0.0f, 0.0f, 0.0f };
04ced10e8804 gcc 7 kono parents: diff changeset	108 }
04ced10e8804 gcc 7 kono parents: diff changeset	109
04ced10e8804 gcc 7 kono parents: diff changeset	110 /* Load four SPFP values from P. The address must be 16-byte aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	111 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	112 _mm_load_ps (float const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	113 {
04ced10e8804 gcc 7 kono parents: diff changeset	114 assert(((unsigned long)__P & 0xfUL) == 0UL);
04ced10e8804 gcc 7 kono parents: diff changeset	115 return ((__m128)vec_ld(0, (__v4sf*)__P));
04ced10e8804 gcc 7 kono parents: diff changeset	116 }
04ced10e8804 gcc 7 kono parents: diff changeset	117
04ced10e8804 gcc 7 kono parents: diff changeset	118 /* Load four SPFP values from P. The address need not be 16-byte aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	119 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	120 _mm_loadu_ps (float const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	121 {
04ced10e8804 gcc 7 kono parents: diff changeset	122 return (vec_vsx_ld(0, __P));
04ced10e8804 gcc 7 kono parents: diff changeset	123 }
04ced10e8804 gcc 7 kono parents: diff changeset	124
04ced10e8804 gcc 7 kono parents: diff changeset	125 /* Load four SPFP values in reverse order. The address must be aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	126 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	127 _mm_loadr_ps (float const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	128 {
04ced10e8804 gcc 7 kono parents: diff changeset	129 __v4sf __tmp;
04ced10e8804 gcc 7 kono parents: diff changeset	130 __m128 result;
04ced10e8804 gcc 7 kono parents: diff changeset	131 static const __vector unsigned char permute_vector =
04ced10e8804 gcc 7 kono parents: diff changeset	132 { 0x1C, 0x1D, 0x1E, 0x1F, 0x18, 0x19, 0x1A, 0x1B, 0x14, 0x15, 0x16,
04ced10e8804 gcc 7 kono parents: diff changeset	133 0x17, 0x10, 0x11, 0x12, 0x13 };
04ced10e8804 gcc 7 kono parents: diff changeset	134
04ced10e8804 gcc 7 kono parents: diff changeset	135 __tmp = vec_ld (0, (__v4sf *) __P);
04ced10e8804 gcc 7 kono parents: diff changeset	136 result = (__m128) vec_perm (__tmp, __tmp, permute_vector);
04ced10e8804 gcc 7 kono parents: diff changeset	137 return result;
04ced10e8804 gcc 7 kono parents: diff changeset	138 }
04ced10e8804 gcc 7 kono parents: diff changeset	139
04ced10e8804 gcc 7 kono parents: diff changeset	140 /* Create a vector with all four elements equal to F. */
04ced10e8804 gcc 7 kono parents: diff changeset	141 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	142 _mm_set1_ps (float __F)
04ced10e8804 gcc 7 kono parents: diff changeset	143 {
04ced10e8804 gcc 7 kono parents: diff changeset	144 return __extension__ (__m128)(__v4sf){ __F, __F, __F, __F };
04ced10e8804 gcc 7 kono parents: diff changeset	145 }
04ced10e8804 gcc 7 kono parents: diff changeset	146
04ced10e8804 gcc 7 kono parents: diff changeset	147 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	148 _mm_set_ps1 (float __F)
04ced10e8804 gcc 7 kono parents: diff changeset	149 {
04ced10e8804 gcc 7 kono parents: diff changeset	150 return _mm_set1_ps (__F);
04ced10e8804 gcc 7 kono parents: diff changeset	151 }
04ced10e8804 gcc 7 kono parents: diff changeset	152
04ced10e8804 gcc 7 kono parents: diff changeset	153 /* Create the vector [Z Y X W]. */
04ced10e8804 gcc 7 kono parents: diff changeset	154 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	155 _mm_set_ps (const float __Z, const float __Y, const float __X, const float __W)
04ced10e8804 gcc 7 kono parents: diff changeset	156 {
04ced10e8804 gcc 7 kono parents: diff changeset	157 return __extension__ (__m128)(__v4sf){ __W, __X, __Y, __Z };
04ced10e8804 gcc 7 kono parents: diff changeset	158 }
04ced10e8804 gcc 7 kono parents: diff changeset	159
04ced10e8804 gcc 7 kono parents: diff changeset	160 /* Create the vector [W X Y Z]. */
04ced10e8804 gcc 7 kono parents: diff changeset	161 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	162 _mm_setr_ps (float __Z, float __Y, float __X, float __W)
04ced10e8804 gcc 7 kono parents: diff changeset	163 {
04ced10e8804 gcc 7 kono parents: diff changeset	164 return __extension__ (__m128)(__v4sf){ __Z, __Y, __X, __W };
04ced10e8804 gcc 7 kono parents: diff changeset	165 }
04ced10e8804 gcc 7 kono parents: diff changeset	166
04ced10e8804 gcc 7 kono parents: diff changeset	167 /* Store four SPFP values. The address must be 16-byte aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	168 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	169 _mm_store_ps (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	170 {
04ced10e8804 gcc 7 kono parents: diff changeset	171 assert(((unsigned long)__P & 0xfUL) == 0UL);
04ced10e8804 gcc 7 kono parents: diff changeset	172 vec_st((__v4sf)__A, 0, (__v4sf*)__P);
04ced10e8804 gcc 7 kono parents: diff changeset	173 }
04ced10e8804 gcc 7 kono parents: diff changeset	174
04ced10e8804 gcc 7 kono parents: diff changeset	175 /* Store four SPFP values. The address need not be 16-byte aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	176 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	177 _mm_storeu_ps (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	178 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	179 (__m128_u )__P = __A;
111 04ced10e8804 gcc 7 kono parents: diff changeset	180 }
04ced10e8804 gcc 7 kono parents: diff changeset	181
04ced10e8804 gcc 7 kono parents: diff changeset	182 /* Store four SPFP values in reverse order. The address must be aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	183 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	184 _mm_storer_ps (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	185 {
04ced10e8804 gcc 7 kono parents: diff changeset	186 __v4sf __tmp;
04ced10e8804 gcc 7 kono parents: diff changeset	187 static const __vector unsigned char permute_vector =
04ced10e8804 gcc 7 kono parents: diff changeset	188 { 0x1C, 0x1D, 0x1E, 0x1F, 0x18, 0x19, 0x1A, 0x1B, 0x14, 0x15, 0x16,
04ced10e8804 gcc 7 kono parents: diff changeset	189 0x17, 0x10, 0x11, 0x12, 0x13 };
04ced10e8804 gcc 7 kono parents: diff changeset	190
04ced10e8804 gcc 7 kono parents: diff changeset	191 __tmp = (__m128) vec_perm (__A, __A, permute_vector);
04ced10e8804 gcc 7 kono parents: diff changeset	192
04ced10e8804 gcc 7 kono parents: diff changeset	193 _mm_store_ps (__P, __tmp);
04ced10e8804 gcc 7 kono parents: diff changeset	194 }
04ced10e8804 gcc 7 kono parents: diff changeset	195
04ced10e8804 gcc 7 kono parents: diff changeset	196 /* Store the lower SPFP value across four words. */
04ced10e8804 gcc 7 kono parents: diff changeset	197 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	198 _mm_store1_ps (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	199 {
04ced10e8804 gcc 7 kono parents: diff changeset	200 __v4sf __va = vec_splat((__v4sf)__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	201 _mm_store_ps (__P, __va);
04ced10e8804 gcc 7 kono parents: diff changeset	202 }
04ced10e8804 gcc 7 kono parents: diff changeset	203
04ced10e8804 gcc 7 kono parents: diff changeset	204 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	205 _mm_store_ps1 (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	206 {
04ced10e8804 gcc 7 kono parents: diff changeset	207 _mm_store1_ps (__P, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	208 }
04ced10e8804 gcc 7 kono parents: diff changeset	209
04ced10e8804 gcc 7 kono parents: diff changeset	210 /* Create a vector with element 0 as F and the rest zero. */
04ced10e8804 gcc 7 kono parents: diff changeset	211 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	212 _mm_set_ss (float __F)
04ced10e8804 gcc 7 kono parents: diff changeset	213 {
04ced10e8804 gcc 7 kono parents: diff changeset	214 return __extension__ (__m128)(__v4sf){ __F, 0.0f, 0.0f, 0.0f };
04ced10e8804 gcc 7 kono parents: diff changeset	215 }
04ced10e8804 gcc 7 kono parents: diff changeset	216
04ced10e8804 gcc 7 kono parents: diff changeset	217 /* Sets the low SPFP value of A from the low value of B. */
04ced10e8804 gcc 7 kono parents: diff changeset	218 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	219 _mm_move_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	220 {
04ced10e8804 gcc 7 kono parents: diff changeset	221 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	222
04ced10e8804 gcc 7 kono parents: diff changeset	223 return (vec_sel ((__v4sf)__A, (__v4sf)__B, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	224 }
04ced10e8804 gcc 7 kono parents: diff changeset	225
04ced10e8804 gcc 7 kono parents: diff changeset	226 /* Create a vector with element 0 as P and the rest zero. /
04ced10e8804 gcc 7 kono parents: diff changeset	227 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	228 _mm_load_ss (float const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	229 {
04ced10e8804 gcc 7 kono parents: diff changeset	230 return _mm_set_ss (*__P);
04ced10e8804 gcc 7 kono parents: diff changeset	231 }
04ced10e8804 gcc 7 kono parents: diff changeset	232
04ced10e8804 gcc 7 kono parents: diff changeset	233 /* Stores the lower SPFP value. */
04ced10e8804 gcc 7 kono parents: diff changeset	234 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	235 _mm_store_ss (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	236 {
04ced10e8804 gcc 7 kono parents: diff changeset	237 *__P = ((__v4sf)__A)[0];
04ced10e8804 gcc 7 kono parents: diff changeset	238 }
04ced10e8804 gcc 7 kono parents: diff changeset	239
04ced10e8804 gcc 7 kono parents: diff changeset	240 /* Perform the respective operation on the lower SPFP (single-precision
04ced10e8804 gcc 7 kono parents: diff changeset	241 floating-point) values of A and B; the upper three SPFP values are
04ced10e8804 gcc 7 kono parents: diff changeset	242 passed through from A. */
04ced10e8804 gcc 7 kono parents: diff changeset	243
04ced10e8804 gcc 7 kono parents: diff changeset	244 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	245 _mm_add_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	246 {
04ced10e8804 gcc 7 kono parents: diff changeset	247 #ifdef _ARCH_PWR7
04ced10e8804 gcc 7 kono parents: diff changeset	248 __m128 a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	249 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	250 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	251 results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	252 (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	253 before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	254 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	255 b = vec_splat (__B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	256 c = a + b;
04ced10e8804 gcc 7 kono parents: diff changeset	257 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	258 float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	259 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	260 #else
04ced10e8804 gcc 7 kono parents: diff changeset	261 __A[0] = __A[0] + __B[0];
04ced10e8804 gcc 7 kono parents: diff changeset	262 return (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	263 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	264 }
04ced10e8804 gcc 7 kono parents: diff changeset	265
04ced10e8804 gcc 7 kono parents: diff changeset	266 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	267 _mm_sub_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	268 {
04ced10e8804 gcc 7 kono parents: diff changeset	269 #ifdef _ARCH_PWR7
04ced10e8804 gcc 7 kono parents: diff changeset	270 __m128 a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	271 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	272 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	273 results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	274 (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	275 before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	276 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	277 b = vec_splat (__B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	278 c = a - b;
04ced10e8804 gcc 7 kono parents: diff changeset	279 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	280 float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	281 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	282 #else
04ced10e8804 gcc 7 kono parents: diff changeset	283 __A[0] = __A[0] - __B[0];
04ced10e8804 gcc 7 kono parents: diff changeset	284 return (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	285 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	286 }
04ced10e8804 gcc 7 kono parents: diff changeset	287
04ced10e8804 gcc 7 kono parents: diff changeset	288 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	289 _mm_mul_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	290 {
04ced10e8804 gcc 7 kono parents: diff changeset	291 #ifdef _ARCH_PWR7
04ced10e8804 gcc 7 kono parents: diff changeset	292 __m128 a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	293 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	294 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	295 results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	296 (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	297 before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	298 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	299 b = vec_splat (__B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	300 c = a * b;
04ced10e8804 gcc 7 kono parents: diff changeset	301 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	302 float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	303 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	304 #else
04ced10e8804 gcc 7 kono parents: diff changeset	305 __A[0] = __A[0] * __B[0];
04ced10e8804 gcc 7 kono parents: diff changeset	306 return (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	307 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	308 }
04ced10e8804 gcc 7 kono parents: diff changeset	309
04ced10e8804 gcc 7 kono parents: diff changeset	310 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	311 _mm_div_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	312 {
04ced10e8804 gcc 7 kono parents: diff changeset	313 #ifdef _ARCH_PWR7
04ced10e8804 gcc 7 kono parents: diff changeset	314 __m128 a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	315 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	316 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	317 results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	318 (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	319 before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	320 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	321 b = vec_splat (__B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	322 c = a / b;
04ced10e8804 gcc 7 kono parents: diff changeset	323 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	324 float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	325 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	326 #else
04ced10e8804 gcc 7 kono parents: diff changeset	327 __A[0] = __A[0] / __B[0];
04ced10e8804 gcc 7 kono parents: diff changeset	328 return (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	329 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	330 }
04ced10e8804 gcc 7 kono parents: diff changeset	331
04ced10e8804 gcc 7 kono parents: diff changeset	332 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	333 _mm_sqrt_ss (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	334 {
04ced10e8804 gcc 7 kono parents: diff changeset	335 __m128 a, c;
04ced10e8804 gcc 7 kono parents: diff changeset	336 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	337 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	338 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	339 * (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	340 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	341 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	342 c = vec_sqrt (a);
04ced10e8804 gcc 7 kono parents: diff changeset	343 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	344 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	345 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	346 }
04ced10e8804 gcc 7 kono parents: diff changeset	347
04ced10e8804 gcc 7 kono parents: diff changeset	348 /* Perform the respective operation on the four SPFP values in A and B. */
04ced10e8804 gcc 7 kono parents: diff changeset	349 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	350 _mm_add_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	351 {
04ced10e8804 gcc 7 kono parents: diff changeset	352 return (__m128) ((__v4sf)__A + (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	353 }
04ced10e8804 gcc 7 kono parents: diff changeset	354
04ced10e8804 gcc 7 kono parents: diff changeset	355 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	356 _mm_sub_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	357 {
04ced10e8804 gcc 7 kono parents: diff changeset	358 return (__m128) ((__v4sf)__A - (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	359 }
04ced10e8804 gcc 7 kono parents: diff changeset	360
04ced10e8804 gcc 7 kono parents: diff changeset	361 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	362 _mm_mul_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	363 {
04ced10e8804 gcc 7 kono parents: diff changeset	364 return (__m128) ((__v4sf)__A * (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	365 }
04ced10e8804 gcc 7 kono parents: diff changeset	366
04ced10e8804 gcc 7 kono parents: diff changeset	367 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	368 _mm_div_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	369 {
04ced10e8804 gcc 7 kono parents: diff changeset	370 return (__m128) ((__v4sf)__A / (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	371 }
04ced10e8804 gcc 7 kono parents: diff changeset	372
04ced10e8804 gcc 7 kono parents: diff changeset	373 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	374 _mm_sqrt_ps (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	375 {
04ced10e8804 gcc 7 kono parents: diff changeset	376 return (vec_sqrt ((__v4sf)__A));
04ced10e8804 gcc 7 kono parents: diff changeset	377 }
04ced10e8804 gcc 7 kono parents: diff changeset	378
04ced10e8804 gcc 7 kono parents: diff changeset	379 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	380 _mm_rcp_ps (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	381 {
04ced10e8804 gcc 7 kono parents: diff changeset	382 return (vec_re ((__v4sf)__A));
04ced10e8804 gcc 7 kono parents: diff changeset	383 }
04ced10e8804 gcc 7 kono parents: diff changeset	384
04ced10e8804 gcc 7 kono parents: diff changeset	385 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	386 _mm_rsqrt_ps (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	387 {
04ced10e8804 gcc 7 kono parents: diff changeset	388 return (vec_rsqrte (__A));
04ced10e8804 gcc 7 kono parents: diff changeset	389 }
04ced10e8804 gcc 7 kono parents: diff changeset	390
04ced10e8804 gcc 7 kono parents: diff changeset	391 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	392 _mm_rcp_ss (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	393 {
04ced10e8804 gcc 7 kono parents: diff changeset	394 __m128 a, c;
04ced10e8804 gcc 7 kono parents: diff changeset	395 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	396 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	397 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	398 * (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	399 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	400 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	401 c = _mm_rcp_ps (a);
04ced10e8804 gcc 7 kono parents: diff changeset	402 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	403 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	404 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	405 }
04ced10e8804 gcc 7 kono parents: diff changeset	406
04ced10e8804 gcc 7 kono parents: diff changeset	407 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	408 _mm_rsqrt_ss (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	409 {
04ced10e8804 gcc 7 kono parents: diff changeset	410 __m128 a, c;
04ced10e8804 gcc 7 kono parents: diff changeset	411 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	412 /* PowerISA VSX does not allow partial (for just lower double)
04ced10e8804 gcc 7 kono parents: diff changeset	413 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	414 * (from the upper double values) we splat the lower double
04ced10e8804 gcc 7 kono parents: diff changeset	415 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	416 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	417 c = vec_rsqrte (a);
04ced10e8804 gcc 7 kono parents: diff changeset	418 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	419 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	420 return (vec_sel (__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	421 }
04ced10e8804 gcc 7 kono parents: diff changeset	422
04ced10e8804 gcc 7 kono parents: diff changeset	423 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	424 _mm_min_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	425 {
04ced10e8804 gcc 7 kono parents: diff changeset	426 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	427 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	428 /* PowerISA VSX does not allow partial (for just lower float)
04ced10e8804 gcc 7 kono parents: diff changeset	429 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	430 * (from the upper float values) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	431 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	432 a = vec_splat ((__v4sf)__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	433 b = vec_splat ((__v4sf)__B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	434 c = vec_min (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	435 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	436 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	437 return (vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	438 }
04ced10e8804 gcc 7 kono parents: diff changeset	439
04ced10e8804 gcc 7 kono parents: diff changeset	440 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	441 _mm_max_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	442 {
04ced10e8804 gcc 7 kono parents: diff changeset	443 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	444 static const __vector unsigned int mask = {0xffffffff, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	445 /* PowerISA VSX does not allow partial (for just lower float)
04ced10e8804 gcc 7 kono parents: diff changeset	446 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	447 * (from the upper float values) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	448 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	449 a = vec_splat (__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	450 b = vec_splat (__B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	451 c = vec_max (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	452 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	453 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	454 return (vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	455 }
04ced10e8804 gcc 7 kono parents: diff changeset	456
04ced10e8804 gcc 7 kono parents: diff changeset	457 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	458 _mm_min_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	459 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	460 __m128 m = (__m128) vec_vcmpgtfp ((__v4sf) __B, (__v4sf) __A);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	461 return vec_sel (__B, __A, m);
111 04ced10e8804 gcc 7 kono parents: diff changeset	462 }
04ced10e8804 gcc 7 kono parents: diff changeset	463
04ced10e8804 gcc 7 kono parents: diff changeset	464 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	465 _mm_max_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	466 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	467 __m128 m = (__m128) vec_vcmpgtfp ((__v4sf) __A, (__v4sf) __B);
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	468 return vec_sel (__B, __A, m);
111 04ced10e8804 gcc 7 kono parents: diff changeset	469 }
04ced10e8804 gcc 7 kono parents: diff changeset	470
04ced10e8804 gcc 7 kono parents: diff changeset	471 /* Perform logical bit-wise operations on 128-bit values. */
04ced10e8804 gcc 7 kono parents: diff changeset	472 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	473 _mm_and_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	474 {
04ced10e8804 gcc 7 kono parents: diff changeset	475 return ((__m128)vec_and ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	476 // return __builtin_ia32_andps (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	477 }
04ced10e8804 gcc 7 kono parents: diff changeset	478
04ced10e8804 gcc 7 kono parents: diff changeset	479 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	480 _mm_andnot_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	481 {
04ced10e8804 gcc 7 kono parents: diff changeset	482 return ((__m128)vec_andc ((__v4sf)__B, (__v4sf)__A));
04ced10e8804 gcc 7 kono parents: diff changeset	483 }
04ced10e8804 gcc 7 kono parents: diff changeset	484
04ced10e8804 gcc 7 kono parents: diff changeset	485 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	486 _mm_or_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	487 {
04ced10e8804 gcc 7 kono parents: diff changeset	488 return ((__m128)vec_or ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	489 }
04ced10e8804 gcc 7 kono parents: diff changeset	490
04ced10e8804 gcc 7 kono parents: diff changeset	491 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	492 _mm_xor_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	493 {
04ced10e8804 gcc 7 kono parents: diff changeset	494 return ((__m128)vec_xor ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	495 }
04ced10e8804 gcc 7 kono parents: diff changeset	496
04ced10e8804 gcc 7 kono parents: diff changeset	497 /* Perform a comparison on the four SPFP values of A and B. For each
04ced10e8804 gcc 7 kono parents: diff changeset	498 element, if the comparison is true, place a mask of all ones in the
04ced10e8804 gcc 7 kono parents: diff changeset	499 result, otherwise a mask of zeros. */
04ced10e8804 gcc 7 kono parents: diff changeset	500 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	501 _mm_cmpeq_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	502 {
04ced10e8804 gcc 7 kono parents: diff changeset	503 return ((__m128)vec_cmpeq ((__v4sf)__A,(__v4sf) __B));
04ced10e8804 gcc 7 kono parents: diff changeset	504 }
04ced10e8804 gcc 7 kono parents: diff changeset	505
04ced10e8804 gcc 7 kono parents: diff changeset	506 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	507 _mm_cmplt_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	508 {
04ced10e8804 gcc 7 kono parents: diff changeset	509 return ((__m128)vec_cmplt ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	510 }
04ced10e8804 gcc 7 kono parents: diff changeset	511
04ced10e8804 gcc 7 kono parents: diff changeset	512 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	513 _mm_cmple_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	514 {
04ced10e8804 gcc 7 kono parents: diff changeset	515 return ((__m128)vec_cmple ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	516 }
04ced10e8804 gcc 7 kono parents: diff changeset	517
04ced10e8804 gcc 7 kono parents: diff changeset	518 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	519 _mm_cmpgt_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	520 {
04ced10e8804 gcc 7 kono parents: diff changeset	521 return ((__m128)vec_cmpgt ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	522 }
04ced10e8804 gcc 7 kono parents: diff changeset	523
04ced10e8804 gcc 7 kono parents: diff changeset	524 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	525 _mm_cmpge_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	526 {
04ced10e8804 gcc 7 kono parents: diff changeset	527 return ((__m128)vec_cmpge ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	528 }
04ced10e8804 gcc 7 kono parents: diff changeset	529
04ced10e8804 gcc 7 kono parents: diff changeset	530 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	531 _mm_cmpneq_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	532 {
04ced10e8804 gcc 7 kono parents: diff changeset	533 __v4sf temp = (__v4sf ) vec_cmpeq ((__v4sf) __A, (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	534 return ((__m128)vec_nor (temp, temp));
04ced10e8804 gcc 7 kono parents: diff changeset	535 }
04ced10e8804 gcc 7 kono parents: diff changeset	536
04ced10e8804 gcc 7 kono parents: diff changeset	537 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	538 _mm_cmpnlt_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	539 {
04ced10e8804 gcc 7 kono parents: diff changeset	540 return ((__m128)vec_cmpge ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	541 }
04ced10e8804 gcc 7 kono parents: diff changeset	542
04ced10e8804 gcc 7 kono parents: diff changeset	543 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	544 _mm_cmpnle_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	545 {
04ced10e8804 gcc 7 kono parents: diff changeset	546 return ((__m128)vec_cmpgt ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	547 }
04ced10e8804 gcc 7 kono parents: diff changeset	548
04ced10e8804 gcc 7 kono parents: diff changeset	549 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	550 _mm_cmpngt_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	551 {
04ced10e8804 gcc 7 kono parents: diff changeset	552 return ((__m128)vec_cmple ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	553 }
04ced10e8804 gcc 7 kono parents: diff changeset	554
04ced10e8804 gcc 7 kono parents: diff changeset	555 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	556 _mm_cmpnge_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	557 {
04ced10e8804 gcc 7 kono parents: diff changeset	558 return ((__m128)vec_cmplt ((__v4sf)__A, (__v4sf)__B));
04ced10e8804 gcc 7 kono parents: diff changeset	559 }
04ced10e8804 gcc 7 kono parents: diff changeset	560
04ced10e8804 gcc 7 kono parents: diff changeset	561 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	562 _mm_cmpord_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	563 {
04ced10e8804 gcc 7 kono parents: diff changeset	564 __vector unsigned int a, b;
04ced10e8804 gcc 7 kono parents: diff changeset	565 __vector unsigned int c, d;
04ced10e8804 gcc 7 kono parents: diff changeset	566 static const __vector unsigned int float_exp_mask =
04ced10e8804 gcc 7 kono parents: diff changeset	567 { 0x7f800000, 0x7f800000, 0x7f800000, 0x7f800000 };
04ced10e8804 gcc 7 kono parents: diff changeset	568
04ced10e8804 gcc 7 kono parents: diff changeset	569 a = (__vector unsigned int) vec_abs ((__v4sf)__A);
04ced10e8804 gcc 7 kono parents: diff changeset	570 b = (__vector unsigned int) vec_abs ((__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	571 c = (__vector unsigned int) vec_cmpgt (float_exp_mask, a);
04ced10e8804 gcc 7 kono parents: diff changeset	572 d = (__vector unsigned int) vec_cmpgt (float_exp_mask, b);
04ced10e8804 gcc 7 kono parents: diff changeset	573 return ((__m128 ) vec_and (c, d));
04ced10e8804 gcc 7 kono parents: diff changeset	574 }
04ced10e8804 gcc 7 kono parents: diff changeset	575
04ced10e8804 gcc 7 kono parents: diff changeset	576 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	577 _mm_cmpunord_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	578 {
04ced10e8804 gcc 7 kono parents: diff changeset	579 __vector unsigned int a, b;
04ced10e8804 gcc 7 kono parents: diff changeset	580 __vector unsigned int c, d;
04ced10e8804 gcc 7 kono parents: diff changeset	581 static const __vector unsigned int float_exp_mask =
04ced10e8804 gcc 7 kono parents: diff changeset	582 { 0x7f800000, 0x7f800000, 0x7f800000, 0x7f800000 };
04ced10e8804 gcc 7 kono parents: diff changeset	583
04ced10e8804 gcc 7 kono parents: diff changeset	584 a = (__vector unsigned int) vec_abs ((__v4sf)__A);
04ced10e8804 gcc 7 kono parents: diff changeset	585 b = (__vector unsigned int) vec_abs ((__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	586 c = (__vector unsigned int) vec_cmpgt (a, float_exp_mask);
04ced10e8804 gcc 7 kono parents: diff changeset	587 d = (__vector unsigned int) vec_cmpgt (b, float_exp_mask);
04ced10e8804 gcc 7 kono parents: diff changeset	588 return ((__m128 ) vec_or (c, d));
04ced10e8804 gcc 7 kono parents: diff changeset	589 }
04ced10e8804 gcc 7 kono parents: diff changeset	590
04ced10e8804 gcc 7 kono parents: diff changeset	591 /* Perform a comparison on the lower SPFP values of A and B. If the
04ced10e8804 gcc 7 kono parents: diff changeset	592 comparison is true, place a mask of all ones in the result, otherwise a
04ced10e8804 gcc 7 kono parents: diff changeset	593 mask of zeros. The upper three SPFP values are passed through from A. */
04ced10e8804 gcc 7 kono parents: diff changeset	594 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	595 _mm_cmpeq_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	596 {
04ced10e8804 gcc 7 kono parents: diff changeset	597 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	598 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	599 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	600 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	601 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	602 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	603 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	604 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	605 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	606 c = (__v4sf) vec_cmpeq(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	607 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	608 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	609 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	610 }
04ced10e8804 gcc 7 kono parents: diff changeset	611
04ced10e8804 gcc 7 kono parents: diff changeset	612 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	613 _mm_cmplt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	614 {
04ced10e8804 gcc 7 kono parents: diff changeset	615 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	616 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	617 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	618 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	619 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	620 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	621 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	622 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	623 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	624 c = (__v4sf) vec_cmplt(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	625 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	626 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	627 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	628 }
04ced10e8804 gcc 7 kono parents: diff changeset	629
04ced10e8804 gcc 7 kono parents: diff changeset	630 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	631 _mm_cmple_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	632 {
04ced10e8804 gcc 7 kono parents: diff changeset	633 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	634 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	635 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	636 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	637 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	638 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	639 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	640 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	641 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	642 c = (__v4sf) vec_cmple(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	643 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	644 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	645 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	646 }
04ced10e8804 gcc 7 kono parents: diff changeset	647
04ced10e8804 gcc 7 kono parents: diff changeset	648 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	649 _mm_cmpgt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	650 {
04ced10e8804 gcc 7 kono parents: diff changeset	651 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	652 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	653 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	654 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	655 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	656 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	657 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	658 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	659 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	660 c = (__v4sf) vec_cmpgt(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	661 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	662 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	663 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	664 }
04ced10e8804 gcc 7 kono parents: diff changeset	665
04ced10e8804 gcc 7 kono parents: diff changeset	666 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	667 _mm_cmpge_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	668 {
04ced10e8804 gcc 7 kono parents: diff changeset	669 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	670 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	671 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	672 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	673 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	674 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	675 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	676 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	677 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	678 c = (__v4sf) vec_cmpge(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	679 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	680 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	681 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	682 }
04ced10e8804 gcc 7 kono parents: diff changeset	683
04ced10e8804 gcc 7 kono parents: diff changeset	684 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	685 _mm_cmpneq_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	686 {
04ced10e8804 gcc 7 kono parents: diff changeset	687 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	688 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	689 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	690 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	691 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	692 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	693 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	694 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	695 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	696 c = (__v4sf) vec_cmpeq(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	697 c = vec_nor (c, c);
04ced10e8804 gcc 7 kono parents: diff changeset	698 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	699 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	700 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	701 }
04ced10e8804 gcc 7 kono parents: diff changeset	702
04ced10e8804 gcc 7 kono parents: diff changeset	703 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	704 _mm_cmpnlt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	705 {
04ced10e8804 gcc 7 kono parents: diff changeset	706 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	707 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	708 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	709 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	710 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	711 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	712 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	713 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	714 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	715 c = (__v4sf) vec_cmpge(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	716 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	717 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	718 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	719 }
04ced10e8804 gcc 7 kono parents: diff changeset	720
04ced10e8804 gcc 7 kono parents: diff changeset	721 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	722 _mm_cmpnle_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	723 {
04ced10e8804 gcc 7 kono parents: diff changeset	724 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	725 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	726 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	727 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	728 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	729 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	730 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	731 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	732 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	733 c = (__v4sf) vec_cmpgt(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	734 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	735 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	736 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	737 }
04ced10e8804 gcc 7 kono parents: diff changeset	738
04ced10e8804 gcc 7 kono parents: diff changeset	739 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	740 _mm_cmpngt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	741 {
04ced10e8804 gcc 7 kono parents: diff changeset	742 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	743 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	744 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	745 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	746 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	747 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	748 * before we to the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	749 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	750 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	751 c = (__v4sf) vec_cmple(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	752 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	753 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	754 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	755 }
04ced10e8804 gcc 7 kono parents: diff changeset	756
04ced10e8804 gcc 7 kono parents: diff changeset	757 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	758 _mm_cmpnge_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	759 {
04ced10e8804 gcc 7 kono parents: diff changeset	760 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	761 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	762 __v4sf a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	763 /* PowerISA VMX does not allow partial (for just element 0)
04ced10e8804 gcc 7 kono parents: diff changeset	764 * results. So to insure we don't generate spurious exceptions
04ced10e8804 gcc 7 kono parents: diff changeset	765 * (from the upper elements) we splat the lower float
04ced10e8804 gcc 7 kono parents: diff changeset	766 * before we do the operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	767 a = vec_splat ((__v4sf) __A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	768 b = vec_splat ((__v4sf) __B, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	769 c = (__v4sf) vec_cmplt(a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	770 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	771 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	772 return ((__m128)vec_sel ((__v4sf)__A, c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	773 }
04ced10e8804 gcc 7 kono parents: diff changeset	774
04ced10e8804 gcc 7 kono parents: diff changeset	775 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	776 _mm_cmpord_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	777 {
04ced10e8804 gcc 7 kono parents: diff changeset	778 __vector unsigned int a, b;
04ced10e8804 gcc 7 kono parents: diff changeset	779 __vector unsigned int c, d;
04ced10e8804 gcc 7 kono parents: diff changeset	780 static const __vector unsigned int float_exp_mask =
04ced10e8804 gcc 7 kono parents: diff changeset	781 { 0x7f800000, 0x7f800000, 0x7f800000, 0x7f800000 };
04ced10e8804 gcc 7 kono parents: diff changeset	782 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	783 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	784
04ced10e8804 gcc 7 kono parents: diff changeset	785 a = (__vector unsigned int) vec_abs ((__v4sf)__A);
04ced10e8804 gcc 7 kono parents: diff changeset	786 b = (__vector unsigned int) vec_abs ((__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	787 c = (__vector unsigned int) vec_cmpgt (float_exp_mask, a);
04ced10e8804 gcc 7 kono parents: diff changeset	788 d = (__vector unsigned int) vec_cmpgt (float_exp_mask, b);
04ced10e8804 gcc 7 kono parents: diff changeset	789 c = vec_and (c, d);
04ced10e8804 gcc 7 kono parents: diff changeset	790 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	791 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	792 return ((__m128)vec_sel ((__v4sf)__A, (__v4sf)c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	793 }
04ced10e8804 gcc 7 kono parents: diff changeset	794
04ced10e8804 gcc 7 kono parents: diff changeset	795 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	796 _mm_cmpunord_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	797 {
04ced10e8804 gcc 7 kono parents: diff changeset	798 __vector unsigned int a, b;
04ced10e8804 gcc 7 kono parents: diff changeset	799 __vector unsigned int c, d;
04ced10e8804 gcc 7 kono parents: diff changeset	800 static const __vector unsigned int float_exp_mask =
04ced10e8804 gcc 7 kono parents: diff changeset	801 { 0x7f800000, 0x7f800000, 0x7f800000, 0x7f800000 };
04ced10e8804 gcc 7 kono parents: diff changeset	802 static const __vector unsigned int mask =
04ced10e8804 gcc 7 kono parents: diff changeset	803 { 0xffffffff, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	804
04ced10e8804 gcc 7 kono parents: diff changeset	805 a = (__vector unsigned int) vec_abs ((__v4sf)__A);
04ced10e8804 gcc 7 kono parents: diff changeset	806 b = (__vector unsigned int) vec_abs ((__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	807 c = (__vector unsigned int) vec_cmpgt (a, float_exp_mask);
04ced10e8804 gcc 7 kono parents: diff changeset	808 d = (__vector unsigned int) vec_cmpgt (b, float_exp_mask);
04ced10e8804 gcc 7 kono parents: diff changeset	809 c = vec_or (c, d);
04ced10e8804 gcc 7 kono parents: diff changeset	810 /* Then we merge the lower float result with the original upper
04ced10e8804 gcc 7 kono parents: diff changeset	811 * float elements from __A. */
04ced10e8804 gcc 7 kono parents: diff changeset	812 return ((__m128)vec_sel ((__v4sf)__A, (__v4sf)c, mask));
04ced10e8804 gcc 7 kono parents: diff changeset	813 }
04ced10e8804 gcc 7 kono parents: diff changeset	814
04ced10e8804 gcc 7 kono parents: diff changeset	815 /* Compare the lower SPFP values of A and B and return 1 if true
04ced10e8804 gcc 7 kono parents: diff changeset	816 and 0 if false. */
04ced10e8804 gcc 7 kono parents: diff changeset	817 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	818 _mm_comieq_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	819 {
04ced10e8804 gcc 7 kono parents: diff changeset	820 return (__A[0] == __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	821 }
04ced10e8804 gcc 7 kono parents: diff changeset	822
04ced10e8804 gcc 7 kono parents: diff changeset	823 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	824 _mm_comilt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	825 {
04ced10e8804 gcc 7 kono parents: diff changeset	826 return (__A[0] < __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	827 }
04ced10e8804 gcc 7 kono parents: diff changeset	828
04ced10e8804 gcc 7 kono parents: diff changeset	829 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	830 _mm_comile_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	831 {
04ced10e8804 gcc 7 kono parents: diff changeset	832 return (__A[0] <= __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	833 }
04ced10e8804 gcc 7 kono parents: diff changeset	834
04ced10e8804 gcc 7 kono parents: diff changeset	835 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	836 _mm_comigt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	837 {
04ced10e8804 gcc 7 kono parents: diff changeset	838 return (__A[0] > __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	839 }
04ced10e8804 gcc 7 kono parents: diff changeset	840
04ced10e8804 gcc 7 kono parents: diff changeset	841 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	842 _mm_comige_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	843 {
04ced10e8804 gcc 7 kono parents: diff changeset	844 return (__A[0] >= __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	845 }
04ced10e8804 gcc 7 kono parents: diff changeset	846
04ced10e8804 gcc 7 kono parents: diff changeset	847 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	848 _mm_comineq_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	849 {
04ced10e8804 gcc 7 kono parents: diff changeset	850 return (__A[0] != __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	851 }
04ced10e8804 gcc 7 kono parents: diff changeset	852
04ced10e8804 gcc 7 kono parents: diff changeset	853 /* FIXME
04ced10e8804 gcc 7 kono parents: diff changeset	854 * The __mm_ucomi??_ss implementations below are exactly the same as
04ced10e8804 gcc 7 kono parents: diff changeset	855 * __mm_comi??_ss because GCC for PowerPC only generates unordered
04ced10e8804 gcc 7 kono parents: diff changeset	856 * compares (scalar and vector).
04ced10e8804 gcc 7 kono parents: diff changeset	857 * Technically __mm_comieq_ss et al should be using the ordered
04ced10e8804 gcc 7 kono parents: diff changeset	858 * compare and signal for QNaNs.
04ced10e8804 gcc 7 kono parents: diff changeset	859 * The __mm_ucomieq_sd et all should be OK, as is.
04ced10e8804 gcc 7 kono parents: diff changeset	860 */
04ced10e8804 gcc 7 kono parents: diff changeset	861 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	862 _mm_ucomieq_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	863 {
04ced10e8804 gcc 7 kono parents: diff changeset	864 return (__A[0] == __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	865 }
04ced10e8804 gcc 7 kono parents: diff changeset	866
04ced10e8804 gcc 7 kono parents: diff changeset	867 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	868 _mm_ucomilt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	869 {
04ced10e8804 gcc 7 kono parents: diff changeset	870 return (__A[0] < __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	871 }
04ced10e8804 gcc 7 kono parents: diff changeset	872
04ced10e8804 gcc 7 kono parents: diff changeset	873 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	874 _mm_ucomile_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	875 {
04ced10e8804 gcc 7 kono parents: diff changeset	876 return (__A[0] <= __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	877 }
04ced10e8804 gcc 7 kono parents: diff changeset	878
04ced10e8804 gcc 7 kono parents: diff changeset	879 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	880 _mm_ucomigt_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	881 {
04ced10e8804 gcc 7 kono parents: diff changeset	882 return (__A[0] > __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	883 }
04ced10e8804 gcc 7 kono parents: diff changeset	884
04ced10e8804 gcc 7 kono parents: diff changeset	885 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	886 _mm_ucomige_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	887 {
04ced10e8804 gcc 7 kono parents: diff changeset	888 return (__A[0] >= __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	889 }
04ced10e8804 gcc 7 kono parents: diff changeset	890
04ced10e8804 gcc 7 kono parents: diff changeset	891 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	892 _mm_ucomineq_ss (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	893 {
04ced10e8804 gcc 7 kono parents: diff changeset	894 return (__A[0] != __B[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	895 }
04ced10e8804 gcc 7 kono parents: diff changeset	896
04ced10e8804 gcc 7 kono parents: diff changeset	897 extern __inline float __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	898 _mm_cvtss_f32 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	899 {
04ced10e8804 gcc 7 kono parents: diff changeset	900 return ((__v4sf)__A)[0];
04ced10e8804 gcc 7 kono parents: diff changeset	901 }
04ced10e8804 gcc 7 kono parents: diff changeset	902
04ced10e8804 gcc 7 kono parents: diff changeset	903 /* Convert the lower SPFP value to a 32-bit integer according to the current
04ced10e8804 gcc 7 kono parents: diff changeset	904 rounding mode. */
04ced10e8804 gcc 7 kono parents: diff changeset	905 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	906 _mm_cvtss_si32 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	907 {
04ced10e8804 gcc 7 kono parents: diff changeset	908 __m64 res = 0;
04ced10e8804 gcc 7 kono parents: diff changeset	909 #ifdef _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	910 __m128 vtmp;
04ced10e8804 gcc 7 kono parents: diff changeset	911 __asm__(
04ced10e8804 gcc 7 kono parents: diff changeset	912 "xxsldwi %x1,%x2,%x2,3;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	913 "xscvspdp %x1,%x1;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	914 "fctiw %1,%1;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	915 "mfvsrd %0,%x1;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	916 : "=r" (res),
04ced10e8804 gcc 7 kono parents: diff changeset	917 "=&wi" (vtmp)
04ced10e8804 gcc 7 kono parents: diff changeset	918 : "wa" (__A)
04ced10e8804 gcc 7 kono parents: diff changeset	919 : );
04ced10e8804 gcc 7 kono parents: diff changeset	920 #else
04ced10e8804 gcc 7 kono parents: diff changeset	921 res = __builtin_rint(__A[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	922 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	923 return (res);
04ced10e8804 gcc 7 kono parents: diff changeset	924 }
04ced10e8804 gcc 7 kono parents: diff changeset	925
04ced10e8804 gcc 7 kono parents: diff changeset	926 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	927 _mm_cvt_ss2si (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	928 {
04ced10e8804 gcc 7 kono parents: diff changeset	929 return _mm_cvtss_si32 (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	930 }
04ced10e8804 gcc 7 kono parents: diff changeset	931
04ced10e8804 gcc 7 kono parents: diff changeset	932 /* Convert the lower SPFP value to a 32-bit integer according to the
04ced10e8804 gcc 7 kono parents: diff changeset	933 current rounding mode. */
04ced10e8804 gcc 7 kono parents: diff changeset	934
04ced10e8804 gcc 7 kono parents: diff changeset	935 /* Intel intrinsic. */
04ced10e8804 gcc 7 kono parents: diff changeset	936 extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	937 _mm_cvtss_si64 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	938 {
04ced10e8804 gcc 7 kono parents: diff changeset	939 __m64 res = 0;
04ced10e8804 gcc 7 kono parents: diff changeset	940 #ifdef _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	941 __m128 vtmp;
04ced10e8804 gcc 7 kono parents: diff changeset	942 __asm__(
04ced10e8804 gcc 7 kono parents: diff changeset	943 "xxsldwi %x1,%x2,%x2,3;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	944 "xscvspdp %x1,%x1;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	945 "fctid %1,%1;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	946 "mfvsrd %0,%x1;\n"
04ced10e8804 gcc 7 kono parents: diff changeset	947 : "=r" (res),
04ced10e8804 gcc 7 kono parents: diff changeset	948 "=&wi" (vtmp)
04ced10e8804 gcc 7 kono parents: diff changeset	949 : "wa" (__A)
04ced10e8804 gcc 7 kono parents: diff changeset	950 : );
04ced10e8804 gcc 7 kono parents: diff changeset	951 #else
04ced10e8804 gcc 7 kono parents: diff changeset	952 res = __builtin_llrint(__A[0]);
04ced10e8804 gcc 7 kono parents: diff changeset	953 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	954 return (res);
04ced10e8804 gcc 7 kono parents: diff changeset	955 }
04ced10e8804 gcc 7 kono parents: diff changeset	956
04ced10e8804 gcc 7 kono parents: diff changeset	957 /* Microsoft intrinsic. */
04ced10e8804 gcc 7 kono parents: diff changeset	958 extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	959 _mm_cvtss_si64x (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	960 {
04ced10e8804 gcc 7 kono parents: diff changeset	961 return _mm_cvtss_si64 ((__v4sf) __A);
04ced10e8804 gcc 7 kono parents: diff changeset	962 }
04ced10e8804 gcc 7 kono parents: diff changeset	963
04ced10e8804 gcc 7 kono parents: diff changeset	964 /* Constants for use with _mm_prefetch. */
04ced10e8804 gcc 7 kono parents: diff changeset	965 enum _mm_hint
04ced10e8804 gcc 7 kono parents: diff changeset	966 {
04ced10e8804 gcc 7 kono parents: diff changeset	967 /* _MM_HINT_ET is _MM_HINT_T with set 3rd bit. */
04ced10e8804 gcc 7 kono parents: diff changeset	968 _MM_HINT_ET0 = 7,
04ced10e8804 gcc 7 kono parents: diff changeset	969 _MM_HINT_ET1 = 6,
04ced10e8804 gcc 7 kono parents: diff changeset	970 _MM_HINT_T0 = 3,
04ced10e8804 gcc 7 kono parents: diff changeset	971 _MM_HINT_T1 = 2,
04ced10e8804 gcc 7 kono parents: diff changeset	972 _MM_HINT_T2 = 1,
04ced10e8804 gcc 7 kono parents: diff changeset	973 _MM_HINT_NTA = 0
04ced10e8804 gcc 7 kono parents: diff changeset	974 };
04ced10e8804 gcc 7 kono parents: diff changeset	975
04ced10e8804 gcc 7 kono parents: diff changeset	976 /* Loads one cache line from address P to a location "closer" to the
04ced10e8804 gcc 7 kono parents: diff changeset	977 processor. The selector I specifies the type of prefetch operation. */
04ced10e8804 gcc 7 kono parents: diff changeset	978 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	979 _mm_prefetch (const void *__P, enum _mm_hint __I)
04ced10e8804 gcc 7 kono parents: diff changeset	980 {
04ced10e8804 gcc 7 kono parents: diff changeset	981 /* Current PowerPC will ignores the hint parameters. */
04ced10e8804 gcc 7 kono parents: diff changeset	982 __builtin_prefetch (__P);
04ced10e8804 gcc 7 kono parents: diff changeset	983 }
04ced10e8804 gcc 7 kono parents: diff changeset	984
04ced10e8804 gcc 7 kono parents: diff changeset	985 /* Convert the two lower SPFP values to 32-bit integers according to the
04ced10e8804 gcc 7 kono parents: diff changeset	986 current rounding mode. Return the integers in packed form. */
04ced10e8804 gcc 7 kono parents: diff changeset	987 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	988 _mm_cvtps_pi32 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	989 {
04ced10e8804 gcc 7 kono parents: diff changeset	990 /* Splat two lower SPFP values to both halves. */
04ced10e8804 gcc 7 kono parents: diff changeset	991 __v4sf temp, rounded;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	992 __vector unsigned long long result;
111 04ced10e8804 gcc 7 kono parents: diff changeset	993
04ced10e8804 gcc 7 kono parents: diff changeset	994 /* Splat two lower SPFP values to both halves. */
04ced10e8804 gcc 7 kono parents: diff changeset	995 temp = (__v4sf) vec_splat ((__vector long long)__A, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	996 rounded = vec_rint(temp);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	997 result = (__vector unsigned long long) vec_cts (rounded, 0);
111 04ced10e8804 gcc 7 kono parents: diff changeset	998
04ced10e8804 gcc 7 kono parents: diff changeset	999 return ((__m64) __builtin_unpack_vector_int128 ((__vector __int128)result, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1000 }
04ced10e8804 gcc 7 kono parents: diff changeset	1001
04ced10e8804 gcc 7 kono parents: diff changeset	1002 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1003 _mm_cvt_ps2pi (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1004 {
04ced10e8804 gcc 7 kono parents: diff changeset	1005 return _mm_cvtps_pi32 (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1006 }
04ced10e8804 gcc 7 kono parents: diff changeset	1007
04ced10e8804 gcc 7 kono parents: diff changeset	1008 /* Truncate the lower SPFP value to a 32-bit integer. */
04ced10e8804 gcc 7 kono parents: diff changeset	1009 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1010 _mm_cvttss_si32 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1011 {
04ced10e8804 gcc 7 kono parents: diff changeset	1012 /* Extract the lower float element. */
04ced10e8804 gcc 7 kono parents: diff changeset	1013 float temp = __A[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1014 /* truncate to 32-bit integer and return. */
04ced10e8804 gcc 7 kono parents: diff changeset	1015 return temp;
04ced10e8804 gcc 7 kono parents: diff changeset	1016 }
04ced10e8804 gcc 7 kono parents: diff changeset	1017
04ced10e8804 gcc 7 kono parents: diff changeset	1018 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1019 _mm_cvtt_ss2si (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1020 {
04ced10e8804 gcc 7 kono parents: diff changeset	1021 return _mm_cvttss_si32 (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1022 }
04ced10e8804 gcc 7 kono parents: diff changeset	1023
04ced10e8804 gcc 7 kono parents: diff changeset	1024 /* Intel intrinsic. */
04ced10e8804 gcc 7 kono parents: diff changeset	1025 extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1026 _mm_cvttss_si64 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1027 {
04ced10e8804 gcc 7 kono parents: diff changeset	1028 /* Extract the lower float element. */
04ced10e8804 gcc 7 kono parents: diff changeset	1029 float temp = __A[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1030 /* truncate to 32-bit integer and return. */
04ced10e8804 gcc 7 kono parents: diff changeset	1031 return temp;
04ced10e8804 gcc 7 kono parents: diff changeset	1032 }
04ced10e8804 gcc 7 kono parents: diff changeset	1033
04ced10e8804 gcc 7 kono parents: diff changeset	1034 /* Microsoft intrinsic. */
04ced10e8804 gcc 7 kono parents: diff changeset	1035 extern __inline long long __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1036 _mm_cvttss_si64x (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1037 {
04ced10e8804 gcc 7 kono parents: diff changeset	1038 /* Extract the lower float element. */
04ced10e8804 gcc 7 kono parents: diff changeset	1039 float temp = __A[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1040 /* truncate to 32-bit integer and return. */
04ced10e8804 gcc 7 kono parents: diff changeset	1041 return temp;
04ced10e8804 gcc 7 kono parents: diff changeset	1042 }
04ced10e8804 gcc 7 kono parents: diff changeset	1043
04ced10e8804 gcc 7 kono parents: diff changeset	1044 /* Truncate the two lower SPFP values to 32-bit integers. Return the
04ced10e8804 gcc 7 kono parents: diff changeset	1045 integers in packed form. */
04ced10e8804 gcc 7 kono parents: diff changeset	1046 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1047 _mm_cvttps_pi32 (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1048 {
04ced10e8804 gcc 7 kono parents: diff changeset	1049 __v4sf temp;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1050 __vector unsigned long long result;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1051
04ced10e8804 gcc 7 kono parents: diff changeset	1052 /* Splat two lower SPFP values to both halves. */
04ced10e8804 gcc 7 kono parents: diff changeset	1053 temp = (__v4sf) vec_splat ((__vector long long)__A, 0);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1054 result = (__vector unsigned long long) vec_cts (temp, 0);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1055
04ced10e8804 gcc 7 kono parents: diff changeset	1056 return ((__m64) __builtin_unpack_vector_int128 ((__vector __int128)result, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1057 }
04ced10e8804 gcc 7 kono parents: diff changeset	1058
04ced10e8804 gcc 7 kono parents: diff changeset	1059 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1060 _mm_cvtt_ps2pi (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1061 {
04ced10e8804 gcc 7 kono parents: diff changeset	1062 return _mm_cvttps_pi32 (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1063 }
04ced10e8804 gcc 7 kono parents: diff changeset	1064
04ced10e8804 gcc 7 kono parents: diff changeset	1065 /* Convert B to a SPFP value and insert it as element zero in A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1066 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1067 _mm_cvtsi32_ss (__m128 __A, int __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1068 {
04ced10e8804 gcc 7 kono parents: diff changeset	1069 float temp = __B;
04ced10e8804 gcc 7 kono parents: diff changeset	1070 __A[0] = temp;
04ced10e8804 gcc 7 kono parents: diff changeset	1071
04ced10e8804 gcc 7 kono parents: diff changeset	1072 return __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1073 }
04ced10e8804 gcc 7 kono parents: diff changeset	1074
04ced10e8804 gcc 7 kono parents: diff changeset	1075 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1076 _mm_cvt_si2ss (__m128 __A, int __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1077 {
04ced10e8804 gcc 7 kono parents: diff changeset	1078 return _mm_cvtsi32_ss (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1079 }
04ced10e8804 gcc 7 kono parents: diff changeset	1080
04ced10e8804 gcc 7 kono parents: diff changeset	1081 /* Convert B to a SPFP value and insert it as element zero in A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1082 /* Intel intrinsic. */
04ced10e8804 gcc 7 kono parents: diff changeset	1083 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1084 _mm_cvtsi64_ss (__m128 __A, long long __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1085 {
04ced10e8804 gcc 7 kono parents: diff changeset	1086 float temp = __B;
04ced10e8804 gcc 7 kono parents: diff changeset	1087 __A[0] = temp;
04ced10e8804 gcc 7 kono parents: diff changeset	1088
04ced10e8804 gcc 7 kono parents: diff changeset	1089 return __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1090 }
04ced10e8804 gcc 7 kono parents: diff changeset	1091
04ced10e8804 gcc 7 kono parents: diff changeset	1092 /* Microsoft intrinsic. */
04ced10e8804 gcc 7 kono parents: diff changeset	1093 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1094 _mm_cvtsi64x_ss (__m128 __A, long long __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1095 {
04ced10e8804 gcc 7 kono parents: diff changeset	1096 return _mm_cvtsi64_ss (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1097 }
04ced10e8804 gcc 7 kono parents: diff changeset	1098
04ced10e8804 gcc 7 kono parents: diff changeset	1099 /* Convert the two 32-bit values in B to SPFP form and insert them
04ced10e8804 gcc 7 kono parents: diff changeset	1100 as the two lower elements in A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1101 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1102 _mm_cvtpi32_ps (__m128 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1103 {
04ced10e8804 gcc 7 kono parents: diff changeset	1104 __vector signed int vm1;
04ced10e8804 gcc 7 kono parents: diff changeset	1105 __vector float vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1106
04ced10e8804 gcc 7 kono parents: diff changeset	1107 vm1 = (__vector signed int) __builtin_pack_vector_int128 (__B, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1108 vf1 = (__vector float) vec_ctf (vm1, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1109
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1110 return ((__m128) (__vector unsigned long long)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1111 { ((__vector unsigned long long)vf1) [0],
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1112 ((__vector unsigned long long)__A) [1]});
111 04ced10e8804 gcc 7 kono parents: diff changeset	1113 }
04ced10e8804 gcc 7 kono parents: diff changeset	1114
04ced10e8804 gcc 7 kono parents: diff changeset	1115 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1116 _mm_cvt_pi2ps (__m128 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1117 {
04ced10e8804 gcc 7 kono parents: diff changeset	1118 return _mm_cvtpi32_ps (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1119 }
04ced10e8804 gcc 7 kono parents: diff changeset	1120
04ced10e8804 gcc 7 kono parents: diff changeset	1121 /* Convert the four signed 16-bit values in A to SPFP form. */
04ced10e8804 gcc 7 kono parents: diff changeset	1122 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1123 _mm_cvtpi16_ps (__m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1124 {
04ced10e8804 gcc 7 kono parents: diff changeset	1125 __vector signed short vs8;
04ced10e8804 gcc 7 kono parents: diff changeset	1126 __vector signed int vi4;
04ced10e8804 gcc 7 kono parents: diff changeset	1127 __vector float vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1128
04ced10e8804 gcc 7 kono parents: diff changeset	1129 vs8 = (__vector signed short) __builtin_pack_vector_int128 (__A, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1130 vi4 = vec_vupklsh (vs8);
04ced10e8804 gcc 7 kono parents: diff changeset	1131 vf1 = (__vector float) vec_ctf (vi4, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1132
04ced10e8804 gcc 7 kono parents: diff changeset	1133 return (__m128) vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1134 }
04ced10e8804 gcc 7 kono parents: diff changeset	1135
04ced10e8804 gcc 7 kono parents: diff changeset	1136 /* Convert the four unsigned 16-bit values in A to SPFP form. */
04ced10e8804 gcc 7 kono parents: diff changeset	1137 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1138 _mm_cvtpu16_ps (__m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1139 {
04ced10e8804 gcc 7 kono parents: diff changeset	1140 const __vector unsigned short zero =
04ced10e8804 gcc 7 kono parents: diff changeset	1141 { 0, 0, 0, 0, 0, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	1142 __vector unsigned short vs8;
04ced10e8804 gcc 7 kono parents: diff changeset	1143 __vector unsigned int vi4;
04ced10e8804 gcc 7 kono parents: diff changeset	1144 __vector float vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1145
04ced10e8804 gcc 7 kono parents: diff changeset	1146 vs8 = (__vector unsigned short) __builtin_pack_vector_int128 (__A, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1147 vi4 = (__vector unsigned int) vec_vmrglh (vs8, zero);
04ced10e8804 gcc 7 kono parents: diff changeset	1148 vf1 = (__vector float) vec_ctf (vi4, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1149
04ced10e8804 gcc 7 kono parents: diff changeset	1150 return (__m128) vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1151 }
04ced10e8804 gcc 7 kono parents: diff changeset	1152
04ced10e8804 gcc 7 kono parents: diff changeset	1153 /* Convert the low four signed 8-bit values in A to SPFP form. */
04ced10e8804 gcc 7 kono parents: diff changeset	1154 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1155 _mm_cvtpi8_ps (__m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1156 {
04ced10e8804 gcc 7 kono parents: diff changeset	1157 __vector signed char vc16;
04ced10e8804 gcc 7 kono parents: diff changeset	1158 __vector signed short vs8;
04ced10e8804 gcc 7 kono parents: diff changeset	1159 __vector signed int vi4;
04ced10e8804 gcc 7 kono parents: diff changeset	1160 __vector float vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1161
04ced10e8804 gcc 7 kono parents: diff changeset	1162 vc16 = (__vector signed char) __builtin_pack_vector_int128 (__A, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1163 vs8 = vec_vupkhsb (vc16);
04ced10e8804 gcc 7 kono parents: diff changeset	1164 vi4 = vec_vupkhsh (vs8);
04ced10e8804 gcc 7 kono parents: diff changeset	1165 vf1 = (__vector float) vec_ctf (vi4, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1166
04ced10e8804 gcc 7 kono parents: diff changeset	1167 return (__m128) vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1168 }
04ced10e8804 gcc 7 kono parents: diff changeset	1169
04ced10e8804 gcc 7 kono parents: diff changeset	1170 /* Convert the low four unsigned 8-bit values in A to SPFP form. */
04ced10e8804 gcc 7 kono parents: diff changeset	1171 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1172
04ced10e8804 gcc 7 kono parents: diff changeset	1173 _mm_cvtpu8_ps (__m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1174 {
04ced10e8804 gcc 7 kono parents: diff changeset	1175 const __vector unsigned char zero =
04ced10e8804 gcc 7 kono parents: diff changeset	1176 { 0, 0, 0, 0, 0, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	1177 __vector unsigned char vc16;
04ced10e8804 gcc 7 kono parents: diff changeset	1178 __vector unsigned short vs8;
04ced10e8804 gcc 7 kono parents: diff changeset	1179 __vector unsigned int vi4;
04ced10e8804 gcc 7 kono parents: diff changeset	1180 __vector float vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1181
04ced10e8804 gcc 7 kono parents: diff changeset	1182 vc16 = (__vector unsigned char) __builtin_pack_vector_int128 (__A, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1183 vs8 = (__vector unsigned short) vec_vmrglb (vc16, zero);
04ced10e8804 gcc 7 kono parents: diff changeset	1184 vi4 = (__vector unsigned int) vec_vmrghh (vs8,
04ced10e8804 gcc 7 kono parents: diff changeset	1185 (__vector unsigned short) zero);
04ced10e8804 gcc 7 kono parents: diff changeset	1186 vf1 = (__vector float) vec_ctf (vi4, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1187
04ced10e8804 gcc 7 kono parents: diff changeset	1188 return (__m128) vf1;
04ced10e8804 gcc 7 kono parents: diff changeset	1189 }
04ced10e8804 gcc 7 kono parents: diff changeset	1190
04ced10e8804 gcc 7 kono parents: diff changeset	1191 /* Convert the four signed 32-bit values in A and B to SPFP form. */
04ced10e8804 gcc 7 kono parents: diff changeset	1192 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1193 _mm_cvtpi32x2_ps(__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1194 {
04ced10e8804 gcc 7 kono parents: diff changeset	1195 __vector signed int vi4;
04ced10e8804 gcc 7 kono parents: diff changeset	1196 __vector float vf4;
04ced10e8804 gcc 7 kono parents: diff changeset	1197
04ced10e8804 gcc 7 kono parents: diff changeset	1198 vi4 = (__vector signed int) __builtin_pack_vector_int128 (__B, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1199 vf4 = (__vector float) vec_ctf (vi4, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1200 return (__m128) vf4;
04ced10e8804 gcc 7 kono parents: diff changeset	1201 }
04ced10e8804 gcc 7 kono parents: diff changeset	1202
04ced10e8804 gcc 7 kono parents: diff changeset	1203 /* Convert the four SPFP values in A to four signed 16-bit integers. */
04ced10e8804 gcc 7 kono parents: diff changeset	1204 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1205 _mm_cvtps_pi16(__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1206 {
04ced10e8804 gcc 7 kono parents: diff changeset	1207 __v4sf rounded;
04ced10e8804 gcc 7 kono parents: diff changeset	1208 __vector signed int temp;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1209 __vector unsigned long long result;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1210
04ced10e8804 gcc 7 kono parents: diff changeset	1211 rounded = vec_rint(__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1212 temp = vec_cts (rounded, 0);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1213 result = (__vector unsigned long long) vec_pack (temp, temp);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1214
04ced10e8804 gcc 7 kono parents: diff changeset	1215 return ((__m64) __builtin_unpack_vector_int128 ((__vector __int128)result, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1216 }
04ced10e8804 gcc 7 kono parents: diff changeset	1217
04ced10e8804 gcc 7 kono parents: diff changeset	1218 /* Convert the four SPFP values in A to four signed 8-bit integers. */
04ced10e8804 gcc 7 kono parents: diff changeset	1219 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1220 _mm_cvtps_pi8(__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1221 {
04ced10e8804 gcc 7 kono parents: diff changeset	1222 __v4sf rounded;
04ced10e8804 gcc 7 kono parents: diff changeset	1223 __vector signed int tmp_i;
04ced10e8804 gcc 7 kono parents: diff changeset	1224 static const __vector signed int zero = {0, 0, 0, 0};
04ced10e8804 gcc 7 kono parents: diff changeset	1225 __vector signed short tmp_s;
04ced10e8804 gcc 7 kono parents: diff changeset	1226 __vector signed char res_v;
04ced10e8804 gcc 7 kono parents: diff changeset	1227 __m64 result;
04ced10e8804 gcc 7 kono parents: diff changeset	1228
04ced10e8804 gcc 7 kono parents: diff changeset	1229 rounded = vec_rint(__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1230 tmp_i = vec_cts (rounded, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1231 tmp_s = vec_pack (tmp_i, zero);
04ced10e8804 gcc 7 kono parents: diff changeset	1232 res_v = vec_pack (tmp_s, tmp_s);
04ced10e8804 gcc 7 kono parents: diff changeset	1233 result = (__m64) __builtin_unpack_vector_int128 ((__vector __int128)res_v, 0);
04ced10e8804 gcc 7 kono parents: diff changeset	1234
04ced10e8804 gcc 7 kono parents: diff changeset	1235 return (result);
04ced10e8804 gcc 7 kono parents: diff changeset	1236 }
04ced10e8804 gcc 7 kono parents: diff changeset	1237
04ced10e8804 gcc 7 kono parents: diff changeset	1238 /* Selects four specific SPFP values from A and B based on MASK. */
04ced10e8804 gcc 7 kono parents: diff changeset	1239 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1240
04ced10e8804 gcc 7 kono parents: diff changeset	1241 _mm_shuffle_ps (__m128 __A, __m128 __B, int const __mask)
04ced10e8804 gcc 7 kono parents: diff changeset	1242 {
04ced10e8804 gcc 7 kono parents: diff changeset	1243 unsigned long element_selector_10 = __mask & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1244 unsigned long element_selector_32 = (__mask >> 2) & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1245 unsigned long element_selector_54 = (__mask >> 4) & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1246 unsigned long element_selector_76 = (__mask >> 6) & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1247 static const unsigned int permute_selectors[4] =
04ced10e8804 gcc 7 kono parents: diff changeset	1248 {
04ced10e8804 gcc 7 kono parents: diff changeset	1249 #ifdef __LITTLE_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1250 0x03020100, 0x07060504, 0x0B0A0908, 0x0F0E0D0C
04ced10e8804 gcc 7 kono parents: diff changeset	1251 #elif __BIG_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1252 0x0C0D0E0F, 0x08090A0B, 0x04050607, 0x00010203
04ced10e8804 gcc 7 kono parents: diff changeset	1253 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1254 };
04ced10e8804 gcc 7 kono parents: diff changeset	1255 __vector unsigned int t;
04ced10e8804 gcc 7 kono parents: diff changeset	1256
04ced10e8804 gcc 7 kono parents: diff changeset	1257 #ifdef __LITTLE_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1258 t[0] = permute_selectors[element_selector_10];
04ced10e8804 gcc 7 kono parents: diff changeset	1259 t[1] = permute_selectors[element_selector_32];
04ced10e8804 gcc 7 kono parents: diff changeset	1260 t[2] = permute_selectors[element_selector_54] + 0x10101010;
04ced10e8804 gcc 7 kono parents: diff changeset	1261 t[3] = permute_selectors[element_selector_76] + 0x10101010;
04ced10e8804 gcc 7 kono parents: diff changeset	1262 #elif __BIG_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1263 t[3] = permute_selectors[element_selector_10] + 0x10101010;
04ced10e8804 gcc 7 kono parents: diff changeset	1264 t[2] = permute_selectors[element_selector_32] + 0x10101010;
04ced10e8804 gcc 7 kono parents: diff changeset	1265 t[1] = permute_selectors[element_selector_54];
04ced10e8804 gcc 7 kono parents: diff changeset	1266 t[0] = permute_selectors[element_selector_76];
04ced10e8804 gcc 7 kono parents: diff changeset	1267 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1268 return vec_perm ((__v4sf) __A, (__v4sf)__B, (__vector unsigned char)t);
04ced10e8804 gcc 7 kono parents: diff changeset	1269 }
04ced10e8804 gcc 7 kono parents: diff changeset	1270
04ced10e8804 gcc 7 kono parents: diff changeset	1271 /* Selects and interleaves the upper two SPFP values from A and B. */
04ced10e8804 gcc 7 kono parents: diff changeset	1272 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1273 _mm_unpackhi_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1274 {
04ced10e8804 gcc 7 kono parents: diff changeset	1275 return (__m128) vec_vmrglw ((__v4sf) __A, (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	1276 }
04ced10e8804 gcc 7 kono parents: diff changeset	1277
04ced10e8804 gcc 7 kono parents: diff changeset	1278 /* Selects and interleaves the lower two SPFP values from A and B. */
04ced10e8804 gcc 7 kono parents: diff changeset	1279 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1280 _mm_unpacklo_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1281 {
04ced10e8804 gcc 7 kono parents: diff changeset	1282 return (__m128) vec_vmrghw ((__v4sf) __A, (__v4sf)__B);
04ced10e8804 gcc 7 kono parents: diff changeset	1283 }
04ced10e8804 gcc 7 kono parents: diff changeset	1284
04ced10e8804 gcc 7 kono parents: diff changeset	1285 /* Sets the upper two SPFP values with 64-bits of data loaded from P;
04ced10e8804 gcc 7 kono parents: diff changeset	1286 the lower two values are passed through from A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1287 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1288 _mm_loadh_pi (__m128 __A, __m64 const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1289 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1290 __vector unsigned long long __a = (__vector unsigned long long)__A;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1291 __vector unsigned long long __p = vec_splats(*__P);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1292 __a [1] = __p [1];
04ced10e8804 gcc 7 kono parents: diff changeset	1293
04ced10e8804 gcc 7 kono parents: diff changeset	1294 return (__m128)__a;
04ced10e8804 gcc 7 kono parents: diff changeset	1295 }
04ced10e8804 gcc 7 kono parents: diff changeset	1296
04ced10e8804 gcc 7 kono parents: diff changeset	1297 /* Stores the upper two SPFP values of A into P. */
04ced10e8804 gcc 7 kono parents: diff changeset	1298 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1299 _mm_storeh_pi (__m64 *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1300 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1301 __vector unsigned long long __a = (__vector unsigned long long) __A;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1302
04ced10e8804 gcc 7 kono parents: diff changeset	1303 *__P = __a[1];
04ced10e8804 gcc 7 kono parents: diff changeset	1304 }
04ced10e8804 gcc 7 kono parents: diff changeset	1305
04ced10e8804 gcc 7 kono parents: diff changeset	1306 /* Moves the upper two values of B into the lower two values of A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1307 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1308 _mm_movehl_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1309 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1310 return (__m128) vec_mergel ((__vector unsigned long long)__B,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1311 (__vector unsigned long long)__A);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1312 }
04ced10e8804 gcc 7 kono parents: diff changeset	1313
04ced10e8804 gcc 7 kono parents: diff changeset	1314 /* Moves the lower two values of B into the upper two values of A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1315 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1316 _mm_movelh_ps (__m128 __A, __m128 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1317 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1318 return (__m128) vec_mergeh ((__vector unsigned long long)__A,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1319 (__vector unsigned long long)__B);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1320 }
04ced10e8804 gcc 7 kono parents: diff changeset	1321
04ced10e8804 gcc 7 kono parents: diff changeset	1322 /* Sets the lower two SPFP values with 64-bits of data loaded from P;
04ced10e8804 gcc 7 kono parents: diff changeset	1323 the upper two values are passed through from A. */
04ced10e8804 gcc 7 kono parents: diff changeset	1324 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1325 _mm_loadl_pi (__m128 __A, __m64 const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1326 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1327 __vector unsigned long long __a = (__vector unsigned long long)__A;
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1328 __vector unsigned long long __p = vec_splats(*__P);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1329 __a [0] = __p [0];
04ced10e8804 gcc 7 kono parents: diff changeset	1330
04ced10e8804 gcc 7 kono parents: diff changeset	1331 return (__m128)__a;
04ced10e8804 gcc 7 kono parents: diff changeset	1332 }
04ced10e8804 gcc 7 kono parents: diff changeset	1333
04ced10e8804 gcc 7 kono parents: diff changeset	1334 /* Stores the lower two SPFP values of A into P. */
04ced10e8804 gcc 7 kono parents: diff changeset	1335 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1336 _mm_storel_pi (__m64 *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1337 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1338 __vector unsigned long long __a = (__vector unsigned long long) __A;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1339
04ced10e8804 gcc 7 kono parents: diff changeset	1340 *__P = __a[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1341 }
04ced10e8804 gcc 7 kono parents: diff changeset	1342
04ced10e8804 gcc 7 kono parents: diff changeset	1343 #ifdef _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	1344 /* Intrinsic functions that require PowerISA 2.07 minimum. */
04ced10e8804 gcc 7 kono parents: diff changeset	1345
04ced10e8804 gcc 7 kono parents: diff changeset	1346 /* Creates a 4-bit mask from the most significant bits of the SPFP values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1347 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1348 _mm_movemask_ps (__m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1349 {
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1350 __vector unsigned long long result;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1351 static const __vector unsigned int perm_mask =
04ced10e8804 gcc 7 kono parents: diff changeset	1352 {
04ced10e8804 gcc 7 kono parents: diff changeset	1353 #ifdef __LITTLE_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1354 0x00204060, 0x80808080, 0x80808080, 0x80808080
04ced10e8804 gcc 7 kono parents: diff changeset	1355 #elif __BIG_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1356 0x80808080, 0x80808080, 0x80808080, 0x00204060
04ced10e8804 gcc 7 kono parents: diff changeset	1357 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1358 };
04ced10e8804 gcc 7 kono parents: diff changeset	1359
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1360 result = ((__vector unsigned long long)
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1361 vec_vbpermq ((__vector unsigned char) __A,
84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1362 (__vector unsigned char) perm_mask));
111 04ced10e8804 gcc 7 kono parents: diff changeset	1363
04ced10e8804 gcc 7 kono parents: diff changeset	1364 #ifdef __LITTLE_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1365 return result[1];
04ced10e8804 gcc 7 kono parents: diff changeset	1366 #elif __BIG_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1367 return result[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1368 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1369 }
04ced10e8804 gcc 7 kono parents: diff changeset	1370 #endif /* _ARCH_PWR8 */
04ced10e8804 gcc 7 kono parents: diff changeset	1371
04ced10e8804 gcc 7 kono parents: diff changeset	1372 /* Create a vector with all four elements equal to P. /
04ced10e8804 gcc 7 kono parents: diff changeset	1373 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1374 _mm_load1_ps (float const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1375 {
04ced10e8804 gcc 7 kono parents: diff changeset	1376 return _mm_set1_ps (*__P);
04ced10e8804 gcc 7 kono parents: diff changeset	1377 }
04ced10e8804 gcc 7 kono parents: diff changeset	1378
04ced10e8804 gcc 7 kono parents: diff changeset	1379 extern __inline __m128 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1380 _mm_load_ps1 (float const *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1381 {
04ced10e8804 gcc 7 kono parents: diff changeset	1382 return _mm_load1_ps (__P);
04ced10e8804 gcc 7 kono parents: diff changeset	1383 }
04ced10e8804 gcc 7 kono parents: diff changeset	1384
04ced10e8804 gcc 7 kono parents: diff changeset	1385 /* Extracts one of the four words of A. The selector N must be immediate. */
04ced10e8804 gcc 7 kono parents: diff changeset	1386 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1387 _mm_extract_pi16 (__m64 const __A, int const __N)
04ced10e8804 gcc 7 kono parents: diff changeset	1388 {
04ced10e8804 gcc 7 kono parents: diff changeset	1389 const int shiftr = (__N & 3) * 16;
04ced10e8804 gcc 7 kono parents: diff changeset	1390
04ced10e8804 gcc 7 kono parents: diff changeset	1391 return ((__A >> shiftr) & 0xffff);
04ced10e8804 gcc 7 kono parents: diff changeset	1392 }
04ced10e8804 gcc 7 kono parents: diff changeset	1393
04ced10e8804 gcc 7 kono parents: diff changeset	1394 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1395 _m_pextrw (__m64 const __A, int const __N)
04ced10e8804 gcc 7 kono parents: diff changeset	1396 {
04ced10e8804 gcc 7 kono parents: diff changeset	1397 return _mm_extract_pi16 (__A, __N);
04ced10e8804 gcc 7 kono parents: diff changeset	1398 }
04ced10e8804 gcc 7 kono parents: diff changeset	1399
04ced10e8804 gcc 7 kono parents: diff changeset	1400 /* Inserts word D into one of four words of A. The selector N must be
04ced10e8804 gcc 7 kono parents: diff changeset	1401 immediate. */
04ced10e8804 gcc 7 kono parents: diff changeset	1402 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1403 _mm_insert_pi16 (__m64 const __A, int const __D, int const __N)
04ced10e8804 gcc 7 kono parents: diff changeset	1404 {
04ced10e8804 gcc 7 kono parents: diff changeset	1405 const int shiftl = (__N & 3) * 16;
04ced10e8804 gcc 7 kono parents: diff changeset	1406 const __m64 shiftD = (const __m64) __D << shiftl;
04ced10e8804 gcc 7 kono parents: diff changeset	1407 const __m64 mask = 0xffffUL << shiftl;
04ced10e8804 gcc 7 kono parents: diff changeset	1408 __m64 result = (__A & (~mask)) \| (shiftD & mask);
04ced10e8804 gcc 7 kono parents: diff changeset	1409
04ced10e8804 gcc 7 kono parents: diff changeset	1410 return (result);
04ced10e8804 gcc 7 kono parents: diff changeset	1411 }
04ced10e8804 gcc 7 kono parents: diff changeset	1412
04ced10e8804 gcc 7 kono parents: diff changeset	1413 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1414 _m_pinsrw (__m64 const __A, int const __D, int const __N)
04ced10e8804 gcc 7 kono parents: diff changeset	1415 {
04ced10e8804 gcc 7 kono parents: diff changeset	1416 return _mm_insert_pi16 (__A, __D, __N);
04ced10e8804 gcc 7 kono parents: diff changeset	1417 }
04ced10e8804 gcc 7 kono parents: diff changeset	1418
04ced10e8804 gcc 7 kono parents: diff changeset	1419 /* Compute the element-wise maximum of signed 16-bit values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1420 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1421
04ced10e8804 gcc 7 kono parents: diff changeset	1422 _mm_max_pi16 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1423 {
04ced10e8804 gcc 7 kono parents: diff changeset	1424 #if _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	1425 __vector signed short a, b, r;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1426 __vector __bool short c;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1427
04ced10e8804 gcc 7 kono parents: diff changeset	1428 a = (__vector signed short)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1429 b = (__vector signed short)vec_splats (__B);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1430 c = (__vector __bool short)vec_cmpgt (a, b);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1431 r = vec_sel (b, a, c);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1432 return (__builtin_unpack_vector_int128 ((__vector __int128)r, 0));
111 04ced10e8804 gcc 7 kono parents: diff changeset	1433 #else
04ced10e8804 gcc 7 kono parents: diff changeset	1434 __m64_union m1, m2, res;
04ced10e8804 gcc 7 kono parents: diff changeset	1435
04ced10e8804 gcc 7 kono parents: diff changeset	1436 m1.as_m64 = __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1437 m2.as_m64 = __B;
04ced10e8804 gcc 7 kono parents: diff changeset	1438
04ced10e8804 gcc 7 kono parents: diff changeset	1439 res.as_short[0] =
04ced10e8804 gcc 7 kono parents: diff changeset	1440 (m1.as_short[0] > m2.as_short[0]) ? m1.as_short[0] : m2.as_short[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1441 res.as_short[1] =
04ced10e8804 gcc 7 kono parents: diff changeset	1442 (m1.as_short[1] > m2.as_short[1]) ? m1.as_short[1] : m2.as_short[1];
04ced10e8804 gcc 7 kono parents: diff changeset	1443 res.as_short[2] =
04ced10e8804 gcc 7 kono parents: diff changeset	1444 (m1.as_short[2] > m2.as_short[2]) ? m1.as_short[2] : m2.as_short[2];
04ced10e8804 gcc 7 kono parents: diff changeset	1445 res.as_short[3] =
04ced10e8804 gcc 7 kono parents: diff changeset	1446 (m1.as_short[3] > m2.as_short[3]) ? m1.as_short[3] : m2.as_short[3];
04ced10e8804 gcc 7 kono parents: diff changeset	1447
04ced10e8804 gcc 7 kono parents: diff changeset	1448 return (__m64) res.as_m64;
04ced10e8804 gcc 7 kono parents: diff changeset	1449 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1450 }
04ced10e8804 gcc 7 kono parents: diff changeset	1451
04ced10e8804 gcc 7 kono parents: diff changeset	1452 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1453 _m_pmaxsw (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1454 {
04ced10e8804 gcc 7 kono parents: diff changeset	1455 return _mm_max_pi16 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1456 }
04ced10e8804 gcc 7 kono parents: diff changeset	1457
04ced10e8804 gcc 7 kono parents: diff changeset	1458 /* Compute the element-wise maximum of unsigned 8-bit values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1459 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1460 _mm_max_pu8 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1461 {
04ced10e8804 gcc 7 kono parents: diff changeset	1462 #if _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	1463 __vector unsigned char a, b, r;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1464 __vector __bool char c;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1465
04ced10e8804 gcc 7 kono parents: diff changeset	1466 a = (__vector unsigned char)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1467 b = (__vector unsigned char)vec_splats (__B);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1468 c = (__vector __bool char)vec_cmpgt (a, b);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1469 r = vec_sel (b, a, c);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1470 return (__builtin_unpack_vector_int128 ((__vector __int128)r, 0));
111 04ced10e8804 gcc 7 kono parents: diff changeset	1471 #else
04ced10e8804 gcc 7 kono parents: diff changeset	1472 __m64_union m1, m2, res;
04ced10e8804 gcc 7 kono parents: diff changeset	1473 long i;
04ced10e8804 gcc 7 kono parents: diff changeset	1474
04ced10e8804 gcc 7 kono parents: diff changeset	1475 m1.as_m64 = __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1476 m2.as_m64 = __B;
04ced10e8804 gcc 7 kono parents: diff changeset	1477
04ced10e8804 gcc 7 kono parents: diff changeset	1478
04ced10e8804 gcc 7 kono parents: diff changeset	1479 for (i = 0; i < 8; i++)
04ced10e8804 gcc 7 kono parents: diff changeset	1480 res.as_char[i] =
04ced10e8804 gcc 7 kono parents: diff changeset	1481 ((unsigned char) m1.as_char[i] > (unsigned char) m2.as_char[i]) ?
04ced10e8804 gcc 7 kono parents: diff changeset	1482 m1.as_char[i] : m2.as_char[i];
04ced10e8804 gcc 7 kono parents: diff changeset	1483
04ced10e8804 gcc 7 kono parents: diff changeset	1484 return (__m64) res.as_m64;
04ced10e8804 gcc 7 kono parents: diff changeset	1485 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1486 }
04ced10e8804 gcc 7 kono parents: diff changeset	1487
04ced10e8804 gcc 7 kono parents: diff changeset	1488 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1489 _m_pmaxub (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1490 {
04ced10e8804 gcc 7 kono parents: diff changeset	1491 return _mm_max_pu8 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1492 }
04ced10e8804 gcc 7 kono parents: diff changeset	1493
04ced10e8804 gcc 7 kono parents: diff changeset	1494 /* Compute the element-wise minimum of signed 16-bit values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1495 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1496 _mm_min_pi16 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1497 {
04ced10e8804 gcc 7 kono parents: diff changeset	1498 #if _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	1499 __vector signed short a, b, r;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1500 __vector __bool short c;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1501
04ced10e8804 gcc 7 kono parents: diff changeset	1502 a = (__vector signed short)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1503 b = (__vector signed short)vec_splats (__B);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1504 c = (__vector __bool short)vec_cmplt (a, b);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1505 r = vec_sel (b, a, c);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1506 return (__builtin_unpack_vector_int128 ((__vector __int128)r, 0));
111 04ced10e8804 gcc 7 kono parents: diff changeset	1507 #else
04ced10e8804 gcc 7 kono parents: diff changeset	1508 __m64_union m1, m2, res;
04ced10e8804 gcc 7 kono parents: diff changeset	1509
04ced10e8804 gcc 7 kono parents: diff changeset	1510 m1.as_m64 = __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1511 m2.as_m64 = __B;
04ced10e8804 gcc 7 kono parents: diff changeset	1512
04ced10e8804 gcc 7 kono parents: diff changeset	1513 res.as_short[0] =
04ced10e8804 gcc 7 kono parents: diff changeset	1514 (m1.as_short[0] < m2.as_short[0]) ? m1.as_short[0] : m2.as_short[0];
04ced10e8804 gcc 7 kono parents: diff changeset	1515 res.as_short[1] =
04ced10e8804 gcc 7 kono parents: diff changeset	1516 (m1.as_short[1] < m2.as_short[1]) ? m1.as_short[1] : m2.as_short[1];
04ced10e8804 gcc 7 kono parents: diff changeset	1517 res.as_short[2] =
04ced10e8804 gcc 7 kono parents: diff changeset	1518 (m1.as_short[2] < m2.as_short[2]) ? m1.as_short[2] : m2.as_short[2];
04ced10e8804 gcc 7 kono parents: diff changeset	1519 res.as_short[3] =
04ced10e8804 gcc 7 kono parents: diff changeset	1520 (m1.as_short[3] < m2.as_short[3]) ? m1.as_short[3] : m2.as_short[3];
04ced10e8804 gcc 7 kono parents: diff changeset	1521
04ced10e8804 gcc 7 kono parents: diff changeset	1522 return (__m64) res.as_m64;
04ced10e8804 gcc 7 kono parents: diff changeset	1523 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1524 }
04ced10e8804 gcc 7 kono parents: diff changeset	1525
04ced10e8804 gcc 7 kono parents: diff changeset	1526 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1527 _m_pminsw (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1528 {
04ced10e8804 gcc 7 kono parents: diff changeset	1529 return _mm_min_pi16 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1530 }
04ced10e8804 gcc 7 kono parents: diff changeset	1531
04ced10e8804 gcc 7 kono parents: diff changeset	1532 /* Compute the element-wise minimum of unsigned 8-bit values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1533 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1534 _mm_min_pu8 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1535 {
04ced10e8804 gcc 7 kono parents: diff changeset	1536 #if _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	1537 __vector unsigned char a, b, r;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1538 __vector __bool char c;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1539
04ced10e8804 gcc 7 kono parents: diff changeset	1540 a = (__vector unsigned char)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1541 b = (__vector unsigned char)vec_splats (__B);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1542 c = (__vector __bool char)vec_cmplt (a, b);
111 04ced10e8804 gcc 7 kono parents: diff changeset	1543 r = vec_sel (b, a, c);
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1544 return (__builtin_unpack_vector_int128 ((__vector __int128)r, 0));
111 04ced10e8804 gcc 7 kono parents: diff changeset	1545 #else
04ced10e8804 gcc 7 kono parents: diff changeset	1546 __m64_union m1, m2, res;
04ced10e8804 gcc 7 kono parents: diff changeset	1547 long i;
04ced10e8804 gcc 7 kono parents: diff changeset	1548
04ced10e8804 gcc 7 kono parents: diff changeset	1549 m1.as_m64 = __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1550 m2.as_m64 = __B;
04ced10e8804 gcc 7 kono parents: diff changeset	1551
04ced10e8804 gcc 7 kono parents: diff changeset	1552
04ced10e8804 gcc 7 kono parents: diff changeset	1553 for (i = 0; i < 8; i++)
04ced10e8804 gcc 7 kono parents: diff changeset	1554 res.as_char[i] =
04ced10e8804 gcc 7 kono parents: diff changeset	1555 ((unsigned char) m1.as_char[i] < (unsigned char) m2.as_char[i]) ?
04ced10e8804 gcc 7 kono parents: diff changeset	1556 m1.as_char[i] : m2.as_char[i];
04ced10e8804 gcc 7 kono parents: diff changeset	1557
04ced10e8804 gcc 7 kono parents: diff changeset	1558 return (__m64) res.as_m64;
04ced10e8804 gcc 7 kono parents: diff changeset	1559 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1560 }
04ced10e8804 gcc 7 kono parents: diff changeset	1561
04ced10e8804 gcc 7 kono parents: diff changeset	1562 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1563 _m_pminub (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1564 {
04ced10e8804 gcc 7 kono parents: diff changeset	1565 return _mm_min_pu8 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1566 }
04ced10e8804 gcc 7 kono parents: diff changeset	1567
04ced10e8804 gcc 7 kono parents: diff changeset	1568 /* Create an 8-bit mask of the signs of 8-bit values. */
04ced10e8804 gcc 7 kono parents: diff changeset	1569 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1570 _mm_movemask_pi8 (__m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1571 {
04ced10e8804 gcc 7 kono parents: diff changeset	1572 unsigned long p = 0x0008101820283038UL; // permute control for sign bits
04ced10e8804 gcc 7 kono parents: diff changeset	1573
04ced10e8804 gcc 7 kono parents: diff changeset	1574 return __builtin_bpermd (p, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1575 }
04ced10e8804 gcc 7 kono parents: diff changeset	1576
04ced10e8804 gcc 7 kono parents: diff changeset	1577 extern __inline int __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1578 _m_pmovmskb (__m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1579 {
04ced10e8804 gcc 7 kono parents: diff changeset	1580 return _mm_movemask_pi8 (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1581 }
04ced10e8804 gcc 7 kono parents: diff changeset	1582
04ced10e8804 gcc 7 kono parents: diff changeset	1583 /* Multiply four unsigned 16-bit values in A by four unsigned 16-bit values
04ced10e8804 gcc 7 kono parents: diff changeset	1584 in B and produce the high 16 bits of the 32-bit results. */
04ced10e8804 gcc 7 kono parents: diff changeset	1585 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1586 _mm_mulhi_pu16 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1587 {
04ced10e8804 gcc 7 kono parents: diff changeset	1588 __vector unsigned short a, b;
04ced10e8804 gcc 7 kono parents: diff changeset	1589 __vector unsigned short c;
04ced10e8804 gcc 7 kono parents: diff changeset	1590 __vector unsigned int w0, w1;
04ced10e8804 gcc 7 kono parents: diff changeset	1591 __vector unsigned char xform1 = {
04ced10e8804 gcc 7 kono parents: diff changeset	1592 0x02, 0x03, 0x12, 0x13, 0x06, 0x07, 0x16, 0x17,
04ced10e8804 gcc 7 kono parents: diff changeset	1593 0x0A, 0x0B, 0x1A, 0x1B, 0x0E, 0x0F, 0x1E, 0x1F
04ced10e8804 gcc 7 kono parents: diff changeset	1594 };
04ced10e8804 gcc 7 kono parents: diff changeset	1595
04ced10e8804 gcc 7 kono parents: diff changeset	1596 a = (__vector unsigned short)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1597 b = (__vector unsigned short)vec_splats (__B);
04ced10e8804 gcc 7 kono parents: diff changeset	1598
04ced10e8804 gcc 7 kono parents: diff changeset	1599 w0 = vec_vmuleuh (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	1600 w1 = vec_vmulouh (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	1601 c = (__vector unsigned short)vec_perm (w0, w1, xform1);
04ced10e8804 gcc 7 kono parents: diff changeset	1602
04ced10e8804 gcc 7 kono parents: diff changeset	1603 return (__builtin_unpack_vector_int128 ((__vector __int128)c, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1604 }
04ced10e8804 gcc 7 kono parents: diff changeset	1605
04ced10e8804 gcc 7 kono parents: diff changeset	1606 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1607 _m_pmulhuw (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1608 {
04ced10e8804 gcc 7 kono parents: diff changeset	1609 return _mm_mulhi_pu16 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1610 }
04ced10e8804 gcc 7 kono parents: diff changeset	1611
04ced10e8804 gcc 7 kono parents: diff changeset	1612 /* Return a combination of the four 16-bit values in A. The selector
04ced10e8804 gcc 7 kono parents: diff changeset	1613 must be an immediate. */
04ced10e8804 gcc 7 kono parents: diff changeset	1614 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1615 _mm_shuffle_pi16 (__m64 __A, int const __N)
04ced10e8804 gcc 7 kono parents: diff changeset	1616 {
04ced10e8804 gcc 7 kono parents: diff changeset	1617 unsigned long element_selector_10 = __N & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1618 unsigned long element_selector_32 = (__N >> 2) & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1619 unsigned long element_selector_54 = (__N >> 4) & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1620 unsigned long element_selector_76 = (__N >> 6) & 0x03;
04ced10e8804 gcc 7 kono parents: diff changeset	1621 static const unsigned short permute_selectors[4] =
04ced10e8804 gcc 7 kono parents: diff changeset	1622 {
04ced10e8804 gcc 7 kono parents: diff changeset	1623 #ifdef __LITTLE_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1624 0x0908, 0x0B0A, 0x0D0C, 0x0F0E
04ced10e8804 gcc 7 kono parents: diff changeset	1625 #elif __BIG_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1626 0x0607, 0x0405, 0x0203, 0x0001
04ced10e8804 gcc 7 kono parents: diff changeset	1627 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1628 };
04ced10e8804 gcc 7 kono parents: diff changeset	1629 __m64_union t;
131 84e7813d76e9 gcc-8.2 mir3636 parents: 111 diff changeset	1630 __vector unsigned long long a, p, r;
111 04ced10e8804 gcc 7 kono parents: diff changeset	1631
04ced10e8804 gcc 7 kono parents: diff changeset	1632 #ifdef __LITTLE_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1633 t.as_short[0] = permute_selectors[element_selector_10];
04ced10e8804 gcc 7 kono parents: diff changeset	1634 t.as_short[1] = permute_selectors[element_selector_32];
04ced10e8804 gcc 7 kono parents: diff changeset	1635 t.as_short[2] = permute_selectors[element_selector_54];
04ced10e8804 gcc 7 kono parents: diff changeset	1636 t.as_short[3] = permute_selectors[element_selector_76];
04ced10e8804 gcc 7 kono parents: diff changeset	1637 #elif __BIG_ENDIAN__
04ced10e8804 gcc 7 kono parents: diff changeset	1638 t.as_short[3] = permute_selectors[element_selector_10];
04ced10e8804 gcc 7 kono parents: diff changeset	1639 t.as_short[2] = permute_selectors[element_selector_32];
04ced10e8804 gcc 7 kono parents: diff changeset	1640 t.as_short[1] = permute_selectors[element_selector_54];
04ced10e8804 gcc 7 kono parents: diff changeset	1641 t.as_short[0] = permute_selectors[element_selector_76];
04ced10e8804 gcc 7 kono parents: diff changeset	1642 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1643 p = vec_splats (t.as_m64);
04ced10e8804 gcc 7 kono parents: diff changeset	1644 a = vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1645 r = vec_perm (a, a, (__vector unsigned char)p);
04ced10e8804 gcc 7 kono parents: diff changeset	1646 return (__builtin_unpack_vector_int128 ((__vector __int128)r, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1647 }
04ced10e8804 gcc 7 kono parents: diff changeset	1648
04ced10e8804 gcc 7 kono parents: diff changeset	1649 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1650 _m_pshufw (__m64 __A, int const __N)
04ced10e8804 gcc 7 kono parents: diff changeset	1651 {
04ced10e8804 gcc 7 kono parents: diff changeset	1652 return _mm_shuffle_pi16 (__A, __N);
04ced10e8804 gcc 7 kono parents: diff changeset	1653 }
04ced10e8804 gcc 7 kono parents: diff changeset	1654
04ced10e8804 gcc 7 kono parents: diff changeset	1655 /* Conditionally store byte elements of A into P. The high bit of each
04ced10e8804 gcc 7 kono parents: diff changeset	1656 byte in the selector N determines whether the corresponding byte from
04ced10e8804 gcc 7 kono parents: diff changeset	1657 A is stored. */
04ced10e8804 gcc 7 kono parents: diff changeset	1658 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1659 _mm_maskmove_si64 (__m64 __A, __m64 __N, char *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1660 {
04ced10e8804 gcc 7 kono parents: diff changeset	1661 __m64 hibit = 0x8080808080808080UL;
04ced10e8804 gcc 7 kono parents: diff changeset	1662 __m64 mask, tmp;
04ced10e8804 gcc 7 kono parents: diff changeset	1663 __m64 p = (__m64)__P;
04ced10e8804 gcc 7 kono parents: diff changeset	1664
04ced10e8804 gcc 7 kono parents: diff changeset	1665 tmp = *p;
04ced10e8804 gcc 7 kono parents: diff changeset	1666 mask = _mm_cmpeq_pi8 ((__N & hibit), hibit);
04ced10e8804 gcc 7 kono parents: diff changeset	1667 tmp = (tmp & (~mask)) \| (__A & mask);
04ced10e8804 gcc 7 kono parents: diff changeset	1668 *p = tmp;
04ced10e8804 gcc 7 kono parents: diff changeset	1669 }
04ced10e8804 gcc 7 kono parents: diff changeset	1670
04ced10e8804 gcc 7 kono parents: diff changeset	1671 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1672 _m_maskmovq (__m64 __A, __m64 __N, char *__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1673 {
04ced10e8804 gcc 7 kono parents: diff changeset	1674 _mm_maskmove_si64 (__A, __N, __P);
04ced10e8804 gcc 7 kono parents: diff changeset	1675 }
04ced10e8804 gcc 7 kono parents: diff changeset	1676
04ced10e8804 gcc 7 kono parents: diff changeset	1677 /* Compute the rounded averages of the unsigned 8-bit values in A and B. */
04ced10e8804 gcc 7 kono parents: diff changeset	1678 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1679 _mm_avg_pu8 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1680 {
04ced10e8804 gcc 7 kono parents: diff changeset	1681 __vector unsigned char a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	1682
04ced10e8804 gcc 7 kono parents: diff changeset	1683 a = (__vector unsigned char)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1684 b = (__vector unsigned char)vec_splats (__B);
04ced10e8804 gcc 7 kono parents: diff changeset	1685 c = vec_avg (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	1686 return (__builtin_unpack_vector_int128 ((__vector __int128)c, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1687 }
04ced10e8804 gcc 7 kono parents: diff changeset	1688
04ced10e8804 gcc 7 kono parents: diff changeset	1689 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1690 _m_pavgb (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1691 {
04ced10e8804 gcc 7 kono parents: diff changeset	1692 return _mm_avg_pu8 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1693 }
04ced10e8804 gcc 7 kono parents: diff changeset	1694
04ced10e8804 gcc 7 kono parents: diff changeset	1695 /* Compute the rounded averages of the unsigned 16-bit values in A and B. */
04ced10e8804 gcc 7 kono parents: diff changeset	1696 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1697 _mm_avg_pu16 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1698 {
04ced10e8804 gcc 7 kono parents: diff changeset	1699 __vector unsigned short a, b, c;
04ced10e8804 gcc 7 kono parents: diff changeset	1700
04ced10e8804 gcc 7 kono parents: diff changeset	1701 a = (__vector unsigned short)vec_splats (__A);
04ced10e8804 gcc 7 kono parents: diff changeset	1702 b = (__vector unsigned short)vec_splats (__B);
04ced10e8804 gcc 7 kono parents: diff changeset	1703 c = vec_avg (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	1704 return (__builtin_unpack_vector_int128 ((__vector __int128)c, 0));
04ced10e8804 gcc 7 kono parents: diff changeset	1705 }
04ced10e8804 gcc 7 kono parents: diff changeset	1706
04ced10e8804 gcc 7 kono parents: diff changeset	1707 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1708 _m_pavgw (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1709 {
04ced10e8804 gcc 7 kono parents: diff changeset	1710 return _mm_avg_pu16 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1711 }
04ced10e8804 gcc 7 kono parents: diff changeset	1712
04ced10e8804 gcc 7 kono parents: diff changeset	1713 /* Compute the sum of the absolute differences of the unsigned 8-bit
04ced10e8804 gcc 7 kono parents: diff changeset	1714 values in A and B. Return the value in the lower 16-bit word; the
04ced10e8804 gcc 7 kono parents: diff changeset	1715 upper words are cleared. */
04ced10e8804 gcc 7 kono parents: diff changeset	1716 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1717 _mm_sad_pu8 (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1718 {
04ced10e8804 gcc 7 kono parents: diff changeset	1719 __vector unsigned char a, b;
04ced10e8804 gcc 7 kono parents: diff changeset	1720 __vector unsigned char vmin, vmax, vabsdiff;
04ced10e8804 gcc 7 kono parents: diff changeset	1721 __vector signed int vsum;
04ced10e8804 gcc 7 kono parents: diff changeset	1722 const __vector unsigned int zero =
04ced10e8804 gcc 7 kono parents: diff changeset	1723 { 0, 0, 0, 0 };
04ced10e8804 gcc 7 kono parents: diff changeset	1724 unsigned short result;
04ced10e8804 gcc 7 kono parents: diff changeset	1725
04ced10e8804 gcc 7 kono parents: diff changeset	1726 a = (__vector unsigned char) __builtin_pack_vector_int128 (0UL, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1727 b = (__vector unsigned char) __builtin_pack_vector_int128 (0UL, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1728 vmin = vec_min (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	1729 vmax = vec_max (a, b);
04ced10e8804 gcc 7 kono parents: diff changeset	1730 vabsdiff = vec_sub (vmax, vmin);
04ced10e8804 gcc 7 kono parents: diff changeset	1731 /* Sum four groups of bytes into integers. */
04ced10e8804 gcc 7 kono parents: diff changeset	1732 vsum = (__vector signed int) vec_sum4s (vabsdiff, zero);
04ced10e8804 gcc 7 kono parents: diff changeset	1733 /* Sum across four integers with integer result. */
04ced10e8804 gcc 7 kono parents: diff changeset	1734 vsum = vec_sums (vsum, (__vector signed int) zero);
04ced10e8804 gcc 7 kono parents: diff changeset	1735 /* The sum is in the right most 32-bits of the vector result.
04ced10e8804 gcc 7 kono parents: diff changeset	1736 Transfer to a GPR and truncate to 16 bits. */
04ced10e8804 gcc 7 kono parents: diff changeset	1737 result = vsum[3];
04ced10e8804 gcc 7 kono parents: diff changeset	1738 return (result);
04ced10e8804 gcc 7 kono parents: diff changeset	1739 }
04ced10e8804 gcc 7 kono parents: diff changeset	1740
04ced10e8804 gcc 7 kono parents: diff changeset	1741 extern __inline __m64 __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1742 _m_psadbw (__m64 __A, __m64 __B)
04ced10e8804 gcc 7 kono parents: diff changeset	1743 {
04ced10e8804 gcc 7 kono parents: diff changeset	1744 return _mm_sad_pu8 (__A, __B);
04ced10e8804 gcc 7 kono parents: diff changeset	1745 }
04ced10e8804 gcc 7 kono parents: diff changeset	1746
04ced10e8804 gcc 7 kono parents: diff changeset	1747 /* Stores the data in A to the address P without polluting the caches. */
04ced10e8804 gcc 7 kono parents: diff changeset	1748 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1749 _mm_stream_pi (__m64 *__P, __m64 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1750 {
04ced10e8804 gcc 7 kono parents: diff changeset	1751 /* Use the data cache block touch for store transient. */
04ced10e8804 gcc 7 kono parents: diff changeset	1752 __asm__ (
04ced10e8804 gcc 7 kono parents: diff changeset	1753 " dcbtstt 0,%0"
04ced10e8804 gcc 7 kono parents: diff changeset	1754 :
04ced10e8804 gcc 7 kono parents: diff changeset	1755 : "b" (__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1756 : "memory"
04ced10e8804 gcc 7 kono parents: diff changeset	1757 );
04ced10e8804 gcc 7 kono parents: diff changeset	1758 *__P = __A;
04ced10e8804 gcc 7 kono parents: diff changeset	1759 }
04ced10e8804 gcc 7 kono parents: diff changeset	1760
04ced10e8804 gcc 7 kono parents: diff changeset	1761 /* Likewise. The address must be 16-byte aligned. */
04ced10e8804 gcc 7 kono parents: diff changeset	1762 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1763 _mm_stream_ps (float *__P, __m128 __A)
04ced10e8804 gcc 7 kono parents: diff changeset	1764 {
04ced10e8804 gcc 7 kono parents: diff changeset	1765 /* Use the data cache block touch for store transient. */
04ced10e8804 gcc 7 kono parents: diff changeset	1766 __asm__ (
04ced10e8804 gcc 7 kono parents: diff changeset	1767 " dcbtstt 0,%0"
04ced10e8804 gcc 7 kono parents: diff changeset	1768 :
04ced10e8804 gcc 7 kono parents: diff changeset	1769 : "b" (__P)
04ced10e8804 gcc 7 kono parents: diff changeset	1770 : "memory"
04ced10e8804 gcc 7 kono parents: diff changeset	1771 );
04ced10e8804 gcc 7 kono parents: diff changeset	1772 _mm_store_ps (__P, __A);
04ced10e8804 gcc 7 kono parents: diff changeset	1773 }
04ced10e8804 gcc 7 kono parents: diff changeset	1774
04ced10e8804 gcc 7 kono parents: diff changeset	1775 /* Guarantees that every preceding store is globally visible before
04ced10e8804 gcc 7 kono parents: diff changeset	1776 any subsequent store. */
04ced10e8804 gcc 7 kono parents: diff changeset	1777 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1778 _mm_sfence (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1779 {
04ced10e8804 gcc 7 kono parents: diff changeset	1780 /* Generate a light weight sync. */
04ced10e8804 gcc 7 kono parents: diff changeset	1781 __atomic_thread_fence (__ATOMIC_RELEASE);
04ced10e8804 gcc 7 kono parents: diff changeset	1782 }
04ced10e8804 gcc 7 kono parents: diff changeset	1783
04ced10e8804 gcc 7 kono parents: diff changeset	1784 /* The execution of the next instruction is delayed by an implementation
04ced10e8804 gcc 7 kono parents: diff changeset	1785 specific amount of time. The instruction does not modify the
04ced10e8804 gcc 7 kono parents: diff changeset	1786 architectural state. This is after the pop_options pragma because
04ced10e8804 gcc 7 kono parents: diff changeset	1787 it does not require SSE support in the processor--the encoding is a
04ced10e8804 gcc 7 kono parents: diff changeset	1788 nop on processors that do not support it. */
04ced10e8804 gcc 7 kono parents: diff changeset	1789 extern __inline void __attribute__((__gnu_inline__, __always_inline__, __artificial__))
04ced10e8804 gcc 7 kono parents: diff changeset	1790 _mm_pause (void)
04ced10e8804 gcc 7 kono parents: diff changeset	1791 {
04ced10e8804 gcc 7 kono parents: diff changeset	1792 /* There is no exact match with this construct, but the following is
04ced10e8804 gcc 7 kono parents: diff changeset	1793 close to the desired effect. */
04ced10e8804 gcc 7 kono parents: diff changeset	1794 #if _ARCH_PWR8
04ced10e8804 gcc 7 kono parents: diff changeset	1795 /* On power8 and later processors we can depend on Program Priority
04ced10e8804 gcc 7 kono parents: diff changeset	1796 (PRI) and associated "very low" PPI setting. Since we don't know
04ced10e8804 gcc 7 kono parents: diff changeset	1797 what PPI this thread is running at we: 1) save the current PRI
04ced10e8804 gcc 7 kono parents: diff changeset	1798 from the PPR SPR into a local GRP, 2) set the PRI to "very low*
04ced10e8804 gcc 7 kono parents: diff changeset	1799 via the special or 31,31,31 encoding. 3) issue an "isync" to
04ced10e8804 gcc 7 kono parents: diff changeset	1800 insure the PRI change takes effect before we execute any more
04ced10e8804 gcc 7 kono parents: diff changeset	1801 instructions.
04ced10e8804 gcc 7 kono parents: diff changeset	1802 Now we can execute a lwsync (release barrier) while we execute
04ced10e8804 gcc 7 kono parents: diff changeset	1803 this thread at "very low" PRI. Finally we restore the original
04ced10e8804 gcc 7 kono parents: diff changeset	1804 PRI and continue execution. */
04ced10e8804 gcc 7 kono parents: diff changeset	1805 unsigned long __PPR;
04ced10e8804 gcc 7 kono parents: diff changeset	1806
04ced10e8804 gcc 7 kono parents: diff changeset	1807 __asm__ volatile (
04ced10e8804 gcc 7 kono parents: diff changeset	1808 " mfppr %0;"
04ced10e8804 gcc 7 kono parents: diff changeset	1809 " or 31,31,31;"
04ced10e8804 gcc 7 kono parents: diff changeset	1810 " isync;"
04ced10e8804 gcc 7 kono parents: diff changeset	1811 " lwsync;"
04ced10e8804 gcc 7 kono parents: diff changeset	1812 " isync;"
04ced10e8804 gcc 7 kono parents: diff changeset	1813 " mtppr %0;"
04ced10e8804 gcc 7 kono parents: diff changeset	1814 : "=r" (__PPR)
04ced10e8804 gcc 7 kono parents: diff changeset	1815 :
04ced10e8804 gcc 7 kono parents: diff changeset	1816 : "memory"
04ced10e8804 gcc 7 kono parents: diff changeset	1817 );
04ced10e8804 gcc 7 kono parents: diff changeset	1818 #else
04ced10e8804 gcc 7 kono parents: diff changeset	1819 /* For older processor where we may not even have Program Priority
04ced10e8804 gcc 7 kono parents: diff changeset	1820 controls we can only depend on Heavy Weight Sync. */
04ced10e8804 gcc 7 kono parents: diff changeset	1821 __atomic_thread_fence (__ATOMIC_SEQ_CST);
04ced10e8804 gcc 7 kono parents: diff changeset	1822 #endif
04ced10e8804 gcc 7 kono parents: diff changeset	1823 }
04ced10e8804 gcc 7 kono parents: diff changeset	1824
04ced10e8804 gcc 7 kono parents: diff changeset	1825 /* Transpose the 4x4 matrix composed of row[0-3]. */
04ced10e8804 gcc 7 kono parents: diff changeset	1826 #define _MM_TRANSPOSE4_PS(row0, row1, row2, row3) \
04ced10e8804 gcc 7 kono parents: diff changeset	1827 do { \
04ced10e8804 gcc 7 kono parents: diff changeset	1828 __v4sf __r0 = (row0), __r1 = (row1), __r2 = (row2), __r3 = (row3); \
04ced10e8804 gcc 7 kono parents: diff changeset	1829 __v4sf __t0 = vec_vmrghw (__r0, __r1); \
04ced10e8804 gcc 7 kono parents: diff changeset	1830 __v4sf __t1 = vec_vmrghw (__r2, __r3); \
04ced10e8804 gcc 7 kono parents: diff changeset	1831 __v4sf __t2 = vec_vmrglw (__r0, __r1); \
04ced10e8804 gcc 7 kono parents: diff changeset	1832 __v4sf __t3 = vec_vmrglw (__r2, __r3); \
04ced10e8804 gcc 7 kono parents: diff changeset	1833 (row0) = (__v4sf)vec_mergeh ((__vector long long)__t0, \
04ced10e8804 gcc 7 kono parents: diff changeset	1834 (__vector long long)__t1); \
04ced10e8804 gcc 7 kono parents: diff changeset	1835 (row1) = (__v4sf)vec_mergel ((__vector long long)__t0, \
04ced10e8804 gcc 7 kono parents: diff changeset	1836 (__vector long long)__t1); \
04ced10e8804 gcc 7 kono parents: diff changeset	1837 (row2) = (__v4sf)vec_mergeh ((__vector long long)__t2, \
04ced10e8804 gcc 7 kono parents: diff changeset	1838 (__vector long long)__t3); \
04ced10e8804 gcc 7 kono parents: diff changeset	1839 (row3) = (__v4sf)vec_mergel ((__vector long long)__t2, \
04ced10e8804 gcc 7 kono parents: diff changeset	1840 (__vector long long)__t3); \
04ced10e8804 gcc 7 kono parents: diff changeset	1841 } while (0)
04ced10e8804 gcc 7 kono parents: diff changeset	1842
04ced10e8804 gcc 7 kono parents: diff changeset	1843 /* For backward source compatibility. */
04ced10e8804 gcc 7 kono parents: diff changeset	1844 //# include <emmintrin.h>
04ced10e8804 gcc 7 kono parents: diff changeset	1845
04ced10e8804 gcc 7 kono parents: diff changeset	1846 #endif /* _XMMINTRIN_H_INCLUDED */

Mercurial > hg > CbC > CbC_gcc

annotate gcc/config/rs6000/xmmintrin.h @ 131:84e7813d76e9