舍入比LLVM中的floor/ceil/int慢得多
round much slower than floor/ceil/int in LLVM
我通过执行循环来对一些基本例程进行基准测试,例如:
float *src, *dst;
for (int i=0; i<cnt; i++) dst[i] = round(src[i]);
全部与AVX2目标,最新的CLANG。有趣的是,floor(x), ceil(x), int(x)...一切似乎都很快。但是 round(x) 似乎非常慢,并且正在反汇编有一些奇怪的意大利面条代码,而不是较新的 SSE 或 AVX 版本。即使通过引入一些依赖关系来阻止矢量化循环的能力,round 也会慢 10 倍。对于地板等,生成的代码使用 vroundss,对于圆形,有意大利面条代码......有什么想法吗?
编辑:我正在使用-ffast-math,-mfpmath=sse,-fno-math-errno,-O3,-std=c ++ 17,-march=core-avx2 -mavx2 -mfma
问题是没有一个 SSE 舍入模式指定正确的舍入round
:
这些函数将 x 舍入到最接近的整数,但从零四舍五入到离零的中间情况 (无论当前的舍入方向如何,请参阅 fenv(3)),而不是最接近的方向 偶数像 rint(3) 这样的整数。
如果你想要更快的代码,你可以尝试测试rint
而不是round
,因为它指定了SSE支持的舍入模式。
需要注意的一件事是,像 floor(x + 0.5)
这样的表达式虽然没有与round(x)
完全相同的语义,但在几乎所有用例中都是有效的替代品,我怀疑它比 floor(x)
慢 10 倍。
相关文章:
- 为什么在全局范围内使用"extern int a"似乎不行?
- int(c) 和 c-'0' 之间的区别。C++
- 从"int*"强制转换为"unsigned int"会丢失精度错误
- 为什么野牛仍在使用"int yylex(void)",却找不到"int yylex(YYS
- 有符号的int和int-有没有一种方法可以在C++中区分它们
- 请解释这句话(cout<<1+int((a<b)^((b-a)&1) )<<endl
- 是否可以从int转换为enum类类型
- 不能在初始值设定项列表中将非常量表达式从类型 'int' 缩小到'unsigned long long'
- 向量 <int> a {N, 0} 和 int arr a[N] = {0} 的时间复杂度有什么区别
- 'short int'持有的值溢出,但"自动"不会溢出?
- 如何在C++中将一个无符号的 int 转换为两个无符号的短裤?
- 调用'begin(int [n])'没有匹配函数
- 没有显式声明的int[]中的foreach
- 在c++中访问int到类对象的映射时出错
- 为什么我无法更改"set<set>"循环中的值<int>
- 长 长 int 不要 长 int 好
- C++程序在循环后给出奇怪的int值
- 如何计算数据类型的范围,例如int
- 如果"new int"返回"int*",那么为什么"new int[n]"不返回"int**"?
- 舍入比LLVM中的floor/ceil/int慢得多