将特定的 SSE 内部函数转换为 NEON 内部函数

Convert specific SSE intrinsics to NEON intrinsics

本文关键字:内部函数 转换 NEON SSE      更新时间:2023-10-16
> [EDIT: (edited to highlight the question in context)

以下是我需要 NEON 内部函数的 SSE 内部函数,因为我正在转换一些 SSE 代码以在 iOS 上运行。

  • _mm_set_ps

将四个单精度浮点值设置为四个输入。

(__m128 _mm_set_ps(float z , float y , float x , float w );)
Return Value:
r0 := w
r1 := x
r2 := y
r3 := z
  • _mm_loadu_ps

加载四个单精度浮点值。地址不需要 16 字节对齐。

__m128 _mm_loadu_ps(float * p);
Return Value:
r0 := p[0]
r1 := p[1]
r2 := p[2]
r3 := p[3]
  • _mm_storeu_ps

存储四个单精度浮点值。地址不需要 16 字节对齐。

void _mm_storeu_ps(float *p, __m128 a);
Return Value:
p[0] := a0
p[1] := a1
p[2] := a2
p[3] := a3
  • _mm_add_epi32
将 a 中的 4 个有符号或无符号 32 位整数

添加到 b 中的 4 个符号或无符号 32 位整数。

__m128i _mm_add_epi32 (__m128i a, __m128i b);
Return Value:
r0 := a0 + b0
r1 := a1 + b1
r2 := a2 + b2
r3 := a3 + b3

注意:尽可能避免未对齐的内存访问。因此,我需要一种方法将未对齐的访问转换为对齐的访问(可能使用填充)。

我对 NEON 内联函数不是很熟悉,但我可以命名等效的 NEON 指令。然后,您将轻松找到合适的宏。

_mm_set_ps

如果这些值已经在 S 寄存器中,您只需将它们重新解释为 D 寄存器否则,您可以使用 vmov 指令填充 D 寄存器:vmov.i32 d0, r0, r1

_mm_loadu_ps

VLD1.32 Q0, [R0]

_mm_storeu_ps

VST1.32 Q0, [R0]

_mm_add_epi32

vadd.u32 Q0, Q1, Q2