如何看到降低的c++

How to see lowered c++

本文关键字：c++ 何看更新时间：2023-10-16

我正在努力提高我对c++实际工作原理的理解。是否有一种方法可以看到编译器如何将我的代码降低到更简单的东西?例如，我想看看所有的复制构造函数是如何被调用的，重载的函数调用是如何被解决的，所有的模板扩展和实例化是如何完成的，等等。现在我正在通过实验学习c++编译器是如何解释我的代码的，但如果能看到我的代码的简化形式就很好了，即使它非常丑陋。我正在寻找类似于g++ -E的东西，它显示了预处理器的结果，但用于c++。

编辑:我应该补充说，我不是在寻找一个反汇编器。c++源代码和汇编代码之间存在巨大的鸿沟。在这个鸿沟中有一些复杂的东西，比如模板元编程和对操作符方法的各种隐式调用(赋值!投!构造函数!)，以及带有非常复杂的解析规则的重载函数等。我正在寻找工具来帮助我理解我的代码是如何被c++编译器解释的。现在，我唯一能做的就是做一些小实验，把编译器正在做的事情拼凑在一起。我想了解更多的细节。例如，它可以极大地帮助调试模板元编程问题。

目前，我认为你最好的选择是Clang(你可以在try Out LLVM页面尝试一些简单的代码)。

当使用Clang/LLVM编译C, c++或Obj-C时，您可以要求编译器发出中间表示(LLVM IR)，而不是完全采用汇编/二进制形式。

LLVM IR是编译器内部使用的完整指定语言:

CLang将c++代码降为LLVM IR
LLVM优化IR

IR是特定于机器的代码之前的最后一步，所以你不需要学习特定的汇编指令，你仍然可以得到一个非常低级的表示，在引擎盖下真正发生了什么。

您可以在优化之前和之后获得IR，后者更能代表实际代码，但与您最初编写的代码相差更大。

C程序示例:

#include <stdio.h>
#include <stdlib.h>
static int factorial(int X) {
  if (X == 0) return 1;
  return X*factorial(X-1);
}
int main(int argc, char **argv) {
  printf("%dn", factorial(atoi(argv[1])));
}

相应红外:

; ModuleID = '/tmp/webcompile/_10956_0.bc'
target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"
target triple = "x86_64-unknown-linux-gnu"
@.str = private unnamed_addr constant [4 x i8] c"%dA0"
define i32 @main(i32 %argc, i8** nocapture %argv) nounwind {
; <label>:0
  %1 = getelementptr inbounds i8** %argv, i64 1
  %2 = load i8** %1, align 8, !tbaa !0
  %3 = tail call i64 @strtol(i8* nocapture %2, i8** null, i32 10) nounwind
  %4 = trunc i64 %3 to i32
  %5 = icmp eq i32 %4, 0
  br i1 %5, label %factorial.exit, label %tailrecurse.i
tailrecurse.i:                                    ; preds = %tailrecurse.i, %0
  %indvar.i = phi i32 [ %indvar.next.i, %tailrecurse.i ], [ 0, %0 ]
  %accumulator.tr1.i = phi i32 [ %6, %tailrecurse.i ], [ 1, %0 ]
  %X.tr2.i = sub i32 %4, %indvar.i
  %6 = mul nsw i32 %X.tr2.i, %accumulator.tr1.i
  %indvar.next.i = add i32 %indvar.i, 1
  %exitcond = icmp eq i32 %indvar.next.i, %4
  br i1 %exitcond, label %factorial.exit, label %tailrecurse.i
factorial.exit:                                   ; preds = %tailrecurse.i, %0
  %accumulator.tr.lcssa.i = phi i32 [ 1, %0 ], [ %6, %tailrecurse.i ]
  %7 = tail call i32 (i8*, ...)* @printf(i8* getelementptr inbounds ([4 x i8]* @.str, i64 0, i64 0), i32 %accumulator.tr.lcssa.i) nounwind
  ret i32 0
}
declare i32 @printf(i8* nocapture, ...) nounwind
declare i64 @strtol(i8*, i8** nocapture, i32) nounwind
!0 = metadata !{metadata !"any pointer", metadata !1}
!1 = metadata !{metadata !"omnipotent char", metadata !2}
!2 = metadata !{metadata !"Simple C/C++ TBAA", null}

我个人认为它相对可读(它试图保留变量名，在某种程度上，函数名仍然存在)，一旦你了解了语言的原始发现。

第一个c++编译器是cfront，顾名思义，它是C的前端;理论上，cfront的输出是你想看到的。但cfront多年来一直没有出现;这是一个商业产品，源代码不可用。

现代c++编译器不使用C中介;如果真有中介的话，那也是一种内部编译器表示，不是您喜欢看到的东西!g++的-S选项将输出*.s文件:汇编代码，其中包含足够的符号，从理论上讲，您可以遵循它。

最早的c++编译器(大约1989年)将c++编译成C。但很长一段时间以来，情况都不是这样，很长一段时间意味着我知道在过去的15年里，没有一个广泛使用的编译器是这样做的。你能做的最好的事情就是查看汇编语言的输出，这需要一定的知识和分析才能理解。

c++编译器的汇编级输出通常不称为"降低"。它被称为"编译"。我能理解你是怎么想到这个术语的。汇编是一种低级语言。但这并不是每个人都使用的术语，如果你使用它会让人感到困惑。

大多数流行的c++编译器都有一个选项，允许您查看汇编级输出。开源的g++编译器有-S选项来做这件事。它将创建一个以.s结尾的文件。您可以通过该文件查看生成的汇编语言。

为了使汇编语言更直接地对应于c++代码，我建议使用-O0选项来关闭优化。优化的结果可能导致汇编代码与原始c++代码几乎没有明显的相似之处。尽管查看这些代码可以帮助您了解优化器在做什么。

另一个问题是，汇编输出中的符号(函数、类和事物的名称)将被称为"混乱"。这是因为大多数汇编语言不允许::作为符号名的一部分，并且因为c++也可以为不同类型的符号使用相同的名称。编译器将c++代码中的名称转换为汇编代码中有效的不同名称。

对于g++，这种混乱可以用c++filt程序来撤消。

c++filt <myprogram.s >myprogram_demangled.s

这将有助于使程序集文件更具可读性。

第一步，你可以预处理它(这是编译器在编译之前实际做的第一步)

with cpp or g++ -E

第二步是解析和翻译

with g++ -S

这个关于编译过程的链接可能会让您感兴趣

您可以使用一个或多个-fdump-tree-标志(完整列表)运行g++(或任何gcc前端)，这将以类似于c的输出格式转储来自不同编译器传递的代码的中间表示。然而，这种输出通常很难阅读，因为有许多编译器生成的临时变量和其他编译构件。它主要用于调试编译器本身，但对于简单的示例，您可以通过研究中间表示来推断gcc对您的c++代码所做的操作。

comauc++编译器生成C代码。但你得为此付出代价。

不用做实验，您可以使用调试器并查看代码流。这样，您可以很容易地看到哪些构造函数或重载函数正在进行实际映射。