2分频浮动功率的优化
Optimization of float power of 2 division
假设我想将无符号int除以2、4或8,等等。AFAIK编译器用移位来代替这种除法。
但我能指望它不是用浮点除以128,而是从指数部分减去7吗?
确保使用指数减法而不是浮点除法的最佳做法是什么?
如果要用常数进行乘法或除法运算,质量适中的编译器应该对其进行优化。在许多平台上,硬件乘法指令可能是最佳的。
对于乘以(或除以)2的幂,std::ldexp(x, p)
将x
乘以2p
,其中p
是int
(并且如果p
被否定则进行除法)。在大多数平台上,我不认为简单乘法有多大好处,因为手动(软件)指数操作必须包括上溢和下溢检查,因此在大多数情况下,生成的指令序列不太可能比硬件乘法有所改进。
TL;DR
使用默认分区与/
操作员
答案很长
我写了一个2乘/除的浮点幂的半工作位实现(没有像Peter Cordes指出的那样考虑NaN、Infinity和0),但发现它的性能仍然比2除幂的原生/
稍差,尽管比非2除幂要好。
这表明GCC对2除法的幂进行了某种优化,我们可以通过查看它在Godbolt上生成的x86-64程序集来确认这一点。
对于2的幂,1/2.0f = 0.5f
是可精确表示的,而不引入任何舍入误差,因此n/2.0f
与n * 0.5f
完全等价。GCC知道即使没有-ffast-math
也可以安全地进行优化。二进制浮点对mantissa * 2^exp
使用基数为2的指数,因此2的幂值(包括像0.5 = 2^-1
这样的负幂)可以用1.0的尾数精确表示。
#include "stdio.h"
union float_int{
unsigned int i;
float f;
};
float float_pow2(float n, int pow){
union float_int u;
u.f = n;
unsigned int exp = ((u.i>>23)&0xff) + pow;
u.i = (u.i&0b10000000011111111111111111111111) | (exp<<23);
return u.f;
}
int main(){
float n = 3.14;
float result = 0;
for(int i = 0; i < 1000000000; i++){
// Uncomment one of the four
// result += n/2.01f;
// result += n/2.0f;
// result += n/2;
result += float_pow2(n,-1);
// Prevent value re-use
// n == 100003.14 by the time the loop ends, and the result will be in float range
n += 0.01f;
}
printf("%fn", result);
}
性能
代码是用GCC-O3
编译的。如果不进行优化,编译器将不会内联float_pow2
,并且会在每条语句之后存储/重新加载,因此自定义函数的性能会更差,因为它是用多条语句完成的。
以2.01f为除数的内置除法性能(x86divss
)
real 0m1.907s
user 0m1.896s
sys 0m0.000s
以2.0f为除数的内置除法性能(x86mulss
)
real 0m0.798s
user 0m0.791s
sys 0m0.004s
以2为除数的内置除法性能(x86mulss
)
real 0m0.798s
user 0m0.794s
sys 0m0.004s
自定义分区性能(float_pow2)
(GCC将数据复制到整数寄存器并返回,而不是使用SSE2矢量整数数学指令。)
real 0m0.968s
user 0m0.967s
sys 0m0.000s
关于准确性,在进行的十次测试中,最后一次测试的标准偏差为0.018秒。其他人似乎也属于类似的一致性范围2.0f
和2.0
的性能几乎相同,事实上,根据godbolt.org的说法,它们被编译成了同一个程序集。
基准实际测量的性能分析(本节由@Peter Cordes撰写):
基准测试测量添加float
的延迟,或者循环体的总吞吐量成本(如果更高的话)。(例如,如果编译器无法将除法优化为乘法,请参阅浮点除法与浮点乘法)。
或者使用float_pow2
,它在英特尔CPU上会很复杂:https://uica.uops.info/对Skylake和Ice Lake的GCC asm循环(从Godbolt复制/粘贴)的预测与测量结果非常接近:float_pow2
循环每次迭代约4.9个循环,而/= 2
(又名*= 0.5f
)循环每次迭代4.0c。4.9c/4c=1.21的性能比非常接近.968s/.798s=1.21
它的分析表明,它不像divss
那样是吞吐量瓶颈(如果执行单元不必等待输入准备好,那么它可以在每次迭代2.25个周期内运行这么多工作)。并且两个单独的CCD_ 28依赖链在理论上仍然各有4个周期长。(Skylake具有2/时钟FP添加/mul吞吐量,具有4个周期延迟。)
但是在CCD_ 29准备执行的一些周期中,它不得不等待一个周期,因为另一个uop是为该执行端口准备的最古老的uop。(可能是因为movd eax, xmm0
和addss xmm0, xmm2
都在等待相同的XMM0输入,这是上一次迭代中addss xmm0, xmm2
的结果。这就是n += 0.01f
。在这些addss xmm0, xmm2
uop中,它们被调度到端口0,在那里它们遇到了这种资源冲突,从而延迟了关键路径依赖链n += 0.01f
的进度)
因此,我们在这里真正衡量的是float_pow2
的额外工作干扰两个FP添加延迟瓶颈所产生的资源冲突。如果一个添加没有在输入准备好后立即运行,那么就无法弥补损失的时间。这是因为这是一个延迟瓶颈,而不是吞吐量。使用多个n1 += 0.02f
/n2 += 0.02f
等展开可以避免这种情况,但编译器在没有-ffast-math
的情况下无法做到这一点,因为它会引入不同的舍入误差。
理论上,mulss
仅是一条指令可能会产生相同的瓶颈,但在这种情况下,uop调度往往会成功,因此不会从关键路径中窃取周期。
顺便说一句,通过乘法(或一些其他操作)连接的两个加法链的依赖模式与处理器的延迟边界和吞吐量边界相同,这些操作必须在序列中发生
- 空基优化子对象的地址
- 关闭||运算符优化
- 如何解决gcc编译器优化导致的centos双编译器设置中的分段错误
- 返回值优化:显式移动还是隐式
- 人脸跟踪arduino代码的优化
- 使用仅使用一次的变量调用的复制构造函数.这可能是通过调用move构造函数进行编译器优化的情况吗
- 纯函数,为什么没有优化
- 为什么大多数 pair 实现默认不使用压缩(空基优化)?
- 如何以优化的方式同时迭代两个间距不相等的数组
- 小字符串优化(调试与发布模式)
- 浮点定向舍入和优化
- Visual Studio 调试优化如何工作?
- 为什么开关的优化方式与 c/c++ 中的链接不同?
- 线性优化目标函数中的绝对值
- GCC 会优化内联访问器吗?
- gcc 如何优化此循环?
- 如何防止 CUDA-GDB 中的<优化输出>值
- 为什么我的程序在 O0 和 O2 的优化级别返回不同的结果
- 这个C++编译器优化(在自身的实例上调用对象自己的构造函数)的名称是什么,它是如何工作的?
- 2分频浮动功率的优化