为什么英特尔的一些内在函数采用常量立即,而另一些则采用非常量?
Why do some of Intel's intrinsics take const immediates, while others are non-const?
英特尔的内在指南似乎正在用直接值进行神秘的区分。他们给一些贴上常量标签,有些贴上常量标签。在实际操作中这两种类型无论需要编译时常量还是编译器都会抱怨。我只是想知道为什么会有这种区别?我错过了什么?
以下是英特尔所说的一个例子:
_mm_blend_epi16 (__m128i a, __m128i b, const int imm8)
_mm_srli_si128 (__m128i a, int imm8)
只是英特尔的旧东西写得不如他们的新东西好,假设你认为const
是一种改进。
请注意,blend_epi16
是 SSE4.1,而srli_si128
是 SSE2。 可能他们决定在为 SSE4.1 添加内部函数时强调参数需要是一个编译时常量的观点。
256位版本的AVX2内部函数使用const:__m256i _mm256_srli_si256 ( __m256i a, const int imm)
。 这基本上证实了他们只是还没有想到const
,因为他们开始使用const
进行相同的指令。
另请注意,他们对psrldq
指令的_mm_srli_si128
名称非常不满意,以至于他们为其引入了一个新名称:_mm_bsrli_si128
应该在新代码中首选,以使其更清楚地表明它是一个字节移位,而不是 128 位宽的位移。 这与_mm_srli_epi64
有很大不同. 不幸的是,说明参考手册没有提到bsrli
名称。
AVX512加载/存储内部函数将使用void*
而不是__m128i*
,这是另一个不错的变化。
所以基本上英特尔做事的方式不同,因为旧的方式是次优的,而不是因为他们必须这样做。
相关文章:
- #定义c-预处理器常量..我做错了什么
- 用C++中的一个变量定义一个常量
- 什么时候在C++中返回常量引用是个好主意
- 代理对象的常量正确性
- 我想将一个对T类型的非常量左值引用绑定到一个T类型的临时值
- 通过多个头文件使用常量变量
- 在cuda线程之间共享大量常量数据
- 不能在初始值设定项列表中将非常量表达式从类型 'int' 缩小到'unsigned long long'
- 有没有什么方法可以使用一个函数中定义的常量变量,也可以由c++中同一程序中的其他函数使用
- 是默认情况下分配给char数组常量的值
- 私有类型的静态常量成员
- OpenGL大的3D纹理(>2GB)非常慢
- 类似枚举的计算常量
- 递归模板化函数不能分配给具有常量限定类型"const tt &"的变量"state"
- 使用常量键但非常量值进行映射
- 为什么`is_open()`非常常量
- 从getter方法返回常量和非常量值
- 阻止const类函数在引用成员上调用非常常量类函数
- C++初始化非常大的常量数组,最佳实践
- 提高c++中非常大的常量的可读性