Neon交换向量中的元素
Intrinsics Neon Swap elements in vector
我想用Neon intrinsic优化这样的代码。基本上只要输入
0 1 2 3 4 5 6 7 8
将产生输出,
2 1 0 5 4 3 8 7 6
void func(uint8_t* src, uint8_t* dst, int size){
for (int i = 0; i < size; i++){
dst[0] = src[2];
dst[1] = src[1];
dst[2] = src[0]
dst = dst+3;
src = src+3;
}
}
我能想到的唯一方法就是使用
uint8x8x3_t src = vld3_u8(src);
获取3个向量,然后访问src[2], src[1], src[0]中的每个元素并写入内存。
有人能帮帮忙吗?
谢谢。
这在底层指令集中非常容易,因为您要交换3元素结构中的两个元素,这实际上已经拼出了相关的指令:
vld3.u8 {d0-d2}, [r0]
vswp d0, d2
vst3.u8 {d0-d2}, [r0]
在NEON程序员指南中甚至有这样一个确切的例子,因为它是RGB-BGR转换,这正是NEON设计的那种处理。
对于内在属性,这有点棘手,因为vswp
没有内在属性;你只需要用C语言表达它,并相信编译器会做正确的事情:
uint8x8x3_t data = vld3_u8(src);
uint8x8_t tmp = data.val[0];
data.val[0] = data.val[2];
data.val[2] = tmp;
vst3_u8(dest, data);
也就是说,手头的编译器是各种版本的GCC,我没能说服它们中的任何一个真正发出vswp
——代码生成从次优到愚蠢。Clang做得好很多,但仍然没有vswp
;其他编译器可能更聪明。
相关文章:
- 向量元素的引用地址与它所指向的向量元素的地址不同.为什么
- C++:如何循环通过向量中的整数元素
- 如何在C++向量中奇数元素前面加上值-1,我在使用insert函数时遇到了问题
- 不允许在向量中添加更多元素
- 基于范围的 for 循环:迭代使用一个元素扩展的向量
- 使用并行参数向量调用元素向量的成员函数
- C++ 查找字符串中存在的元素向量
- 包含 std::threads 的元素向量
- 避免从单一元素向量转换为基元类型
- 对自定义元素向量进行排序时出现意外(至少对我来说)行为
- 如何为对元素(向量和int)配对创建unique_ptr也是unique_ptr
- 元素向量乘法 C++(代码不起作用)
- 时间和空间复杂性在二叉树的每个级别创建元素向量(NON-BST)
- 遍历结构元素向量
- 犰狳C++中的元素向量或矩阵乘法
- 为什么'std::vector<int> b{2};'创建 1 元素向量,而不是 2 元素向量?
- 可移动元素向量的大小调整是否有效?
- 唯一元素向量的c++模板函数
- 获取索引和元素-向量问题
- 定义一个生成元素向量的函数时,正确的方法是什么?