分支的缓存缺失惩罚

Cache miss penalty on branching

本文关键字：惩罚缓存分支更新时间：2023-10-16

我想知道用2乘法代替分支是否更快(由于缓存丢失惩罚)?
以下是我的例子:

float dot = rib1.x*-dir.y + rib1.y*dir.x;
if(dot<0){
    dir.x = -dir.x;
    dir.y = -dir.y;
}

我试着用

来代替它

float dot = rib1.x*-dir.y + rib1.y*dir.x;
int sgn = (dot  < 0.0) - (0.0 < dot ); //returns -1 or 1 (no branching here, tested)
dir.x *= sgn;
dir.y *= sgn;

分支并不意味着缓存丢失:只有指令预取/流水线会受到干扰，因此您可能会在编译时用它阻塞一些SSE优化。

另一方面，如果只使用x86指令，推测执行将使处理器正确地开始执行最常用的分支。

另一方面，如果你在50%的时间里输入if，你处于最坏的情况:在这种情况下，我会尝试寻找SSE管道，并使用SSE优化执行，可能从这篇文章中得到一些提示，与你的第二块代码一致。

但是，对代码进行基准测试，检查生成的汇编程序，以便找到此优化的最佳解决方案，并获得适当的见解。并最终让我们更新:)

乘法的成本取决于几个因素，是使用32位还是64位浮点数，以及是否启用SSE。根据此来源，两次浮点乘法的成本为10个周期:http://www.agner.org/optimize/instruction_tables.pdf

分支的成本还取决于几个因素。根据经验，不要担心代码中的分支。分支预测器在CPU上的确切行为将定义性能，但在这种情况下，您可能应该期望分支最多是不可预测的，因此这很可能导致许多分支错误预测。根据此来源，分支错误预测的代价是10-30个周期:http://valgrind.org/docs/manual/cg-manual.html

最好的建议是进行分析和测试。我猜在现代的酷睿i7上，这两个乘法运算应该比分支if the range of input varies sufficiently as to cause sufficient branch mispredictions as to outweigh the cost of the additional multiplication更快。

假设漏检率为50%，支路的成本平均为15个周期(30 * 0.5)，float mul的成本为10个周期。

EDIT:添加链接，更新估计的指令成本。