是不是比较意味着一个分支

Is it the case that comparisons imply a branch?

本文关键字:一个 分支 比较 意味着 是不是      更新时间:2023-10-16

我正在阅读维基百科关于优化的页面:http://en.wikibooks.org/wiki/Optimizing_C%2B%2B/Code_optimization/Pipeline我遇到了这条线:

对于流水线处理器,比较比差异慢,因为它们意味着一个分支。

为什么比较意味着一个分支?例如,如果:

int i = 2;
int x = i<5;

这其中有分支吗?对我来说,分支带有条件的 if 语句是有意义的,但我不明白为什么单独比较会导致分支。

序言:现代编译器能够以各种方式消除分支。因此,没有一个示例必然导致最终(汇编程序或机器)代码中的分支。

那么,为什么逻辑基本上意味着分支呢?

代码

bool check_interval_branch(int const i, int const min_i, int const max_i)
{
  return min_i <= i && i <= max_i;
} 

可以在逻辑上重写为:

bool check_interval_branch(int const i, int const min_i, int const max_i)
{
  if (min_i <= i) 
  { 
    if (i < max_i) return true; 
  }
  return false;
} 

在这里,您显然有两个分支(其中第二个分支仅在第一个分支为真时执行 - 短路),分支预测器可能会错误预测,进而导致管道重新滚动。

Visual Studio 2013(优化变为一个)生成以下程序集,其中包含两个用于check_interval_branch的分支:

  push  ebp
  mov   ebp, esp
  mov   eax, DWORD PTR _i$[ebp]
  cmp   DWORD PTR _min_i$[ebp], eax    // comparison
  jg    SHORT $LN3@check_inte          // conditional jump
  cmp   eax, DWORD PTR _max_i$[ebp]    // comparison
  jg    SHORT $LN3@check_inte          // conditional jump
  mov   al, 1
  pop   ebp
  ret   0
$LN3@check_inte:
  xor   al, al
  pop   ebp
  ret   0

代码

bool check_interval_diff(int const i, int const min_i, int const max_i)
{
  return unsigned(i - min_i) <= unsigned(max_i - min_i);
}

在逻辑上与

bool check_interval_diff(int const i, int const min_i, int const max_i)
{
  if (unsigned(i – min_i) <= unsigned(max_i – min_i)) { return true; }
  return false;
}

它只包含一个分支,但执行两个差异。

为Visual Studio 2013 check_interval_diff生成的代码甚至不包含条件跳转。

  push  ebp
  mov   ebp, esp
  mov   edx, DWORD PTR _i$[ebp]
  mov   eax, DWORD PTR _max_i$[ebp]
  sub   eax, DWORD PTR _min_i$[ebp]
  sub   edx, DWORD PTR _min_i$[ebp]
  cmp   eax, edx                    // comparison
  sbb   eax, eax
  inc   eax
  pop   ebp
  ret   0

(这里的诀窍是,根据进位标志,sbb完成的减法与 1 不同,而进位标志又被 cmp 指令设置为 1 或 0。

事实上,你在这里看到了三个差异(2x sub,1x sbb)。

这可能取决于您的数据/用例哪个更快。

请参阅此处有关分支预测的神秘答案。

您的代码int x = i<5;在逻辑上与

int x = false;
if (i < 5)
{
  x = true;
}

它再次包含一个分支(x = true只有在i < 5时才执行。

这只涉及一个分支:

unsigned(i – min_i) <= unsigned(max_i – min_i)

虽然这涉及两个:

min_i <= i && i <= max_i

当 CPU 遇到分支时,它会查询其预测器并遵循最可能的路径。如果预测正确,则分支在性能方面基本上是免费的。如果预测错误,CPU 需要刷新管道并重新开始。

这种优化是一把双刃剑,---如果你的分支是高度可预测的,第一个分支实际上可能比第二个运行得慢。这完全取决于您对数据的了解程度。

虽然这里给出的答案很好,但并非所有比较都转换为分支指令(它们确实引入了数据依赖关系,这也可能会降低您的一些性能)。

例如,以下 C 代码

int main()
{
    volatile int i;
    int x = i<5;
    return x;
}

由 gcc(x86-64,启用优化)编译为:

    movl    -4(%rbp), %eax
    cmpl    $5, %eax
    setl    %al
    movzbl  %al, %eax

setl指令根据前面的比较指令的结果设置AL的值。

当然,这是一个非常简单的例子 - cmp/setl组合可能会引入依赖关系,阻止处理器并行执行它们,甚至可能花费你几个周期。

尽管如此,在现代处理器上,并非所有比较都转化为分支指令。

谁写过那个页面,谁就不能胜任程序员。 第一比较不一定意味着分支;这取决于你什么和他们一起做。 这是否意味着一个分支取决于处理器和编译器。 if通常需要分支,但即便如此,一个好的优化器有时也可以避免它。 一个while或一个 for通常需要一个分支,除非编译器可以展开循环,但该分支是高度可预测的,因此即使分支预测是一个问题,可能无关紧要。

更一般地说,如果您在写作时担心此级别的任何事情你的代码,你在浪费你的时间,并使维护工作更加丰富难。 您唯一应该担心的时间是一旦您有一个性能问题,探查器显示这是你正在失去性能。 此时,您可以尝试几种不同的代码编写方式,以确定哪一种将为编译器和硬件的组合生成更快的代码。(更改编译器或硬件,它们可能不是同一个。