CUDA:避免分支分歧上的串行执行

CUDA: Avoiding serial execution on branch divergence

本文关键字：执行分支 CUDA 更新时间：2023-10-16

假设由单个warp执行的CUDA内核(为简单起见)达到if-else语句，其中warp中的20个线程满足condition，32-20=12个线程不满足：

if (condition){
statement1;     // executed by 20 threads
else{
statement2;     // executed by 12 threads
}

根据CUDA C编程指南：

warp一次执行一条公共指令[…]如果warp的线程通过依赖数据的条件分支分叉，warp会串行执行所采用的每个分支路径，禁用不在该路径上的线程，当所有路径完成时，线程会聚合回同一执行路径。

因此，这两条语句将在不同的周期中依次执行。

开普勒体系结构包含每个warp调度器2个指令调度单元，因此能够在每个周期为每个warp发布2个独立的指令。

我的问题是：在这个只有两个分支的设置中，为什么statement1和statement2不能由两个指令调度单元发出，以便由warp内的32个线程同时执行，即20个线程执行statement1，而其他12个线程则同时执行statement2？如果指令调度程序不是warp一次执行单个公共指令的原因，那是什么？它是只提供32个线程范围指令的指令集吗？还是硬件相关的原因？

每个内核指令总是为warp中的所有线程执行。因此，在逻辑上不可能在同一时间对同一经线内的不同线程执行不同的指令。这将与构建GPU所依据的SIMT执行模型背道而驰。回答您的问题：

开普勒体系结构每个warp调度器包含2个指令调度单元，因此能够在每个周期为每个warp发出2个独立的指令。

为什么语句1和语句2不能由两个指令调度单元发出，以便由warp内的32个线程同时执行，即20个线程执行语句1，而其他12个线程同时运行语句2？

我不确定你是否意识到了这一点，但如果statement1和statement2在计算上是独立的，那么它们可以在一个周期内执行：

来自CCD_ 10的指令将在所有线程上执行
由于有了第二个调度单元，来自statement2的指令将在调度的同一周期内在所有线程上执行

这就是GPU中分支分歧的一般工作方式，可以在这里找到一些进一步的解读。因此，我相信你已经免费得到了你想要的东西——这两个语句都在同一个周期内执行(或者可以)。

编辑：

正如talonmies在评论中所说，有条件执行可能值得一提，因为它有时有助于防止分支分歧造成的处罚。关于这个主题的更多信息可以找到，例如在这个SO线程中，引用：

对于更简单的条件，NVIDIA GPU支持ALU处的条件求值，这不会导致发散，对于整个warp遵循相同路径的条件，显然也没有惩罚。