Neon交换向量中的元素

Intrinsics Neon Swap elements in vector

本文关键字:元素 向量 交换 Neon      更新时间:2023-10-16

我想用Neon intrinsic优化这样的代码。基本上只要输入

0 1 2 3 4 5 6 7 8

将产生输出,

2 1 0 5 4 3 8 7 6

void func(uint8_t* src, uint8_t* dst, int size){
   for (int i = 0; i < size; i++){
     dst[0] = src[2];
     dst[1] = src[1];
     dst[2] = src[0]
     dst = dst+3;
     src = src+3;
   }           
}

我能想到的唯一方法就是使用

uint8x8x3_t src = vld3_u8(src);

获取3个向量,然后访问src[2], src[1], src[0]中的每个元素并写入内存。

有人能帮帮忙吗?

谢谢。

这在底层指令集中非常容易,因为您要交换3元素结构中的两个元素,这实际上已经拼出了相关的指令:

vld3.u8 {d0-d2}, [r0]
vswp d0, d2
vst3.u8 {d0-d2}, [r0]

在NEON程序员指南中甚至有这样一个确切的例子,因为它是RGB-BGR转换,这正是NEON设计的那种处理。

对于内在属性,这有点棘手,因为vswp没有内在属性;你只需要用C语言表达它,并相信编译器会做正确的事情:

uint8x8x3_t data = vld3_u8(src);
uint8x8_t tmp = data.val[0];
data.val[0] = data.val[2];
data.val[2] = tmp;
vst3_u8(dest, data);

也就是说,手头的编译器是各种版本的GCC,我没能说服它们中的任何一个真正发出vswp——代码生成从次优到愚蠢。Clang做得好很多,但仍然没有vswp;其他编译器可能更聪明。