使用GCC 4.5编译的程序崩溃,而GCC 4.4则可以

Program compiled with GCC 4.5 crashes, while GCC 4.4 is fine

本文关键字:GCC 4则 程序 编译 使用 崩溃      更新时间:2023-10-16

最近我尝试编译和安装ns-2,这是一个基于C++和Tcl的网络模拟器。

通过对源代码进行一些轻微的修改(别担心,它不会导致崩溃),我可以使用最新的gcc 4.5版本进行编译。

但当我执行二进制文件时,它会给出以下错误

$bin/ns
*** buffer overflow detected ***: bin/ns terminated

相同的代码如果使用早期的gcc编译,则运行良好。所以我相信这是由于gcc 4.5中的一些增强功能。

我该如何处理这个问题?当然,使用gcc 4.4编译是一种选择,但我想知道出了什么问题:)

更新:

以下是gdb:的完整堆栈跟踪和反向跟踪

$ bin/ns
*** buffer overflow detected ***: bin/ns terminated
======= Backtrace: =========
/lib/x86_64-linux-gnu/libc.so.6(__fortify_fail+0x37)[0x7f01824ac1d7]
/lib/x86_64-linux-gnu/libc.so.6(+0xfd0f0)[0x7f01824ab0f0]
bin/ns[0x8d5b5a]
bin/ns[0x8d56de]
bin/ns[0x841077]
bin/ns[0x842b19]
bin/ns(Tcl_EvalEx+0x16)[0x843256]
bin/ns(Tcl_Eval+0x1d)[0x84327d]
bin/ns(Tcl_GlobalEval+0x2b)[0x84391b]
bin/ns(_ZN3Tcl4evalEPc+0x27)[0x83352b]
bin/ns(_ZN3Tcl5evalcEPKc+0xdd)[0x8334e9]
bin/ns(_ZN11EmbeddedTcl4loadEv+0x24)[0x834712]
bin/ns(Tcl_AppInit+0xb2)[0x8331a5]
bin/ns(Tcl_Main+0x1d0)[0x8ad6a0]
bin/ns(nslibmain+0x25)[0x8330c5]
bin/ns(main+0x20)[0x833254]
/lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xff)[0x7f01823cceff]
bin/ns[0x5bc1a9]

使用GDB并打开符号:

(gdb) bt
#0  0x00007ffff6970d05 in raise () from /lib/x86_64-linux-gnu/libc.so.6
#1  0x00007ffff6974ab6 in abort () from /lib/x86_64-linux-gnu/libc.so.6
#2  0x00007ffff69a9d7b in ?? () from /lib/x86_64-linux-gnu/libc.so.6
#3  0x00007ffff6a3b1d7 in __fortify_fail () from /lib/x86_64-linux-gnu/libc.so.6
#4  0x00007ffff6a3a0f0 in __chk_fail () from /lib/x86_64-linux-gnu/libc.so.6
#5  0x00000000008d5b5a in strcpy (interp=0xd2dda0, optionIndex=<value optimized out>, objc=<value optimized out>, objv=0x7fffffffdad0)
    at /usr/include/bits/string3.h:105
#6  TraceVariableObjCmd (interp=0xd2dda0, optionIndex=<value optimized out>, objc=<value optimized out>, objv=0x7fffffffdad0)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclTrace.c:912
#7  0x00000000008d56de in Tcl_TraceObjCmd (dummy=<value optimized out>, interp=0xd2dda0, objc=<value optimized out>, objv=0xd2ec00)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclTrace.c:293
#8  0x0000000000841077 in TclEvalObjvInternal (interp=0xd2dda0, objc=5, objv=0xd2ec00,
    command=0x7ffff7f680fe "trace variable defaultRNG w { abort "cannot update defaultRNG once assigned"; }nnnClass RandomVariable/TraceDriven -superclass RandomVariablennRandomVariable/TraceDriven instproc init {} {n$self instv"..., length=80, flags=0)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclBasic.c:3689
#9  0x0000000000842b19 in TclEvalEx (interp=0xd2dda0,
    script=0x7ffff7f52010 "nnnnnnproc warn {msg} {nglobal warned_nif {![info exists warned_($msg)]} {nputs stderr "warning: $msg"nset warned_($msg) 1n}n}nnif {[info commands debug] == ""} {nproc debug args {nwarn {Script debugg"..., numBytes=422209, flags=<value optimized out>, line=4141,
    clNextOuter=<value optimized out>,
    outerScript=0x7ffff7f52010 "nnnnnnproc warn {msg} {nglobal warned_nif {![info exists warned_($msg)]} {nputs stderr "warning: $msg"nset warned_($msg) 1n}n}nnif {[info commands debug] == ""} {nproc debug args {nwarn {Script debugg"...)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclBasic.c:4386
#10 0x0000000000843256 in Tcl_EvalEx (interp=<value optimized out>, script=<value optimized out>, numBytes=<value optimized out>,
    flags=<value optimized out>) at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclBasic.c:4043
#11 0x000000000084327d in Tcl_Eval (interp=0xd2dda0, script=<value optimized out>)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclBasic.c:4955
#12 0x000000000084391b in Tcl_GlobalEval (interp=0xd2dda0, command=<value optimized out>)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclBasic.c:6005
#13 0x000000000083352b in Tcl::eval(char*) ()
#14 0x00000000008334e9 in Tcl::evalc(char const*) ()
#15 0x0000000000834712 in EmbeddedTcl::load() ()
#16 0x00000000008331a5 in Tcl_AppInit ()
#17 0x00000000008ad6a0 in Tcl_Main (argc=<value optimized out>, argv=0x7fffffffe1d0, appInitProc=0x8330f3 <Tcl_AppInit>)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclMain.c:418
#18 0x00000000008330c5 in nslibmain ()
#19 0x0000000000833254 in main ()    

著名的遗言:"别担心,我的更改没有破坏任何东西"。我们怎么能确定呢?

然而,如果代码在4.4下工作,在4.5下崩溃,那么你有适度的机会是正确的。

GCC采用了一些与代码相关的积极优化,试图检测整数溢出并将其删除。在这种情况下,您必须在ns-2中找到该代码,并尝试修复它-无论是由ns-2开发人员还是您自己。

您可能应该尝试在调试器下运行程序,这样您就可以在检测到缓冲区溢出时获得控制权,并查看代码的位置。如果您禁用了核心转储(使用ulimit -c 0或等效功能),请考虑启用它们,并在它终止时查看是否获得核心转储。这应该给你一个起点。


进一步思考:

  • 编译代码时,使用的警告标志有多严格?你能在启用更多警告的情况下重新编译吗?

    如果你找不到其他方法来获得C或C++编译器的特殊选项,那么一种通常有效的技术(使用AutoTools配置的程序)是:

    ./configure --prefix=/opt/ns CC="gcc -Wall -Wextra" CXX="g++ -Wall -Wextra"
    

    (我还使用此技术指定32位与64位构建,添加-m32-m64。)

    警告:如果代码不是在这些选项下创建的,那么使用这些选项进行第一次编译可能会带来创伤。然而,在所有的警告中,也有一个很好的机会是关于你问题的根源。然而,同样无可争议的是,可能会有50个警告与之无关,而任何一个警告都是(或更糟的),修复由此发现的所有警告可能仍然无法解决问题。如果代码编译时带有严格的警告,那么您将面临启用更多奇异警告的问题。但是,如果你能让编译器帮助诊断它引起的问题,你当然应该这样做——这比在没有帮助的情况下找到问题要简单得多。

  • 此外,确保您正在生成一个可调试的程序——即使您保持优化启用。

  • 此外,考虑在关闭优化的情况下进行编译,看看程序是否仍然崩溃。如果程序在没有优化的情况下不会崩溃,而在进行优化的情况中也会崩溃,那么您将获得一些有用的信息。它不会使查找原因变得更容易,但您知道它(可能)与优化器有关。或者可能只是错误在未优化的情况下移动,并且不会致命地失败。


扩展堆栈跟踪信息很奇怪:

#5  0x00000000008d5b5a in strcpy (interp=0xd2dda0, optionIndex=<value optimized out>,
                                  objc=<value optimized out>, objv=0x7fffffffdad0)
    at /usr/include/bits/string3.h:105
#6  TraceVariableObjCmd (interp=0xd2dda0, optionIndex=<value optimized out>,
                         objc=<value optimized out>, objv=0x7fffffffdad0)
    at /media/Linux/ns-allinone-2.35-RC7/tcl8.5.8/unix/../generic/tclTrace.c:912

这些并不是strcpy()的普通论点。通常,你只有两个论点。我想不出在什么情况下将字符串复制到指向Tcl解释器主控制结构的指针上是合适的。因此,为了进一步了解这一点,我将非常仔细地查看tclTrace.c中的第900-920行左右,尤其是第912行。这可能只是优化器处理对象代码的方式造成的假象,也可能是一个真正的问题。

我找到了tcl8.5.8的源代码,tclTrace.c的912行是该代码中的strcpy()

    if ((enum traceOptions) optionIndex == TRACE_ADD) {
        CombinedTraceVarInfo *ctvarPtr;
        ctvarPtr = (CombinedTraceVarInfo *) ckalloc((unsigned)
                (sizeof(CombinedTraceVarInfo) + length + 1
                - sizeof(ctvarPtr->traceCmdInfo.command)));
        ctvarPtr->traceCmdInfo.flags = flags;
        if (objv[0] == NULL) {
            ctvarPtr->traceCmdInfo.flags |= TCL_TRACE_OLD_STYLE;
        }
        ctvarPtr->traceCmdInfo.length = length;
        flags |= TCL_TRACE_UNSETS | TCL_TRACE_RESULT_OBJECT;
        strcpy(ctvarPtr->traceCmdInfo.command, command);       // Line 912
        ctvarPtr->traceInfo.traceProc = TraceVarProc;
        ctvarPtr->traceInfo.clientData = (ClientData)
                &ctvarPtr->traceCmdInfo;
        ctvarPtr->traceInfo.flags = flags;
        name = Tcl_GetString(objv[3]);
        if (TraceVarEx(interp,name,NULL,(VarTrace*)ctvarPtr) != TCL_OK) {
            ckfree((char *) ctvarPtr);
            return TCL_ERROR;
        }
    } else {

因此,GDB的输出和堆栈跟踪看起来有些误导;有两个变量传递给CCD_ 7,其中一个在堆上本地分配。

我会考虑从嵌入ns-2的源代码中独立编译tcl,看看你是否能自己解决这个bug(对不起,糟糕的双关语)。此代码与跟踪tcl变量trace add varname ...AFAICT有关。

假设它通过了,我会考虑获得GCC 4.6,看看用它而不是GCC 4.5编译ns-2时是否会出现同样的问题。


Valgrind

既然您在Linux上运行,那么您应该能够使用Valgrind。它非常善于发现记忆滥用问题。为了获得最大的好处,请使用ns-2的调试版本。

"检测到缓冲区溢出":您正在写入未分配的区域。gcc 4.4显然生成了没有触发问题的代码(或者有一个问题没有显示为崩溃,但现在没有发现错误的结果),gcc 4.5生成了检测问题并警告你的代码。唯一的解决方案是找到问题的来源并修复代码。

这可能是各种各样的事情。这可能是GCC错误。这可能是一个Tcl错误(作为Tcl开发人员之一,我希望不是,但我不会排除它,因为Tcl经常假设结构上没有保护代码;Tcl肯定是C89代码)。这可能是ns2中的一个错误。据我所知,它甚至可能是其他地方的一个bug(因为ns2是基于Tcl构建的,它可以加载外部代码库;很可能在那里出现问题)。

遗憾的是,我们无法从发布的信息中判断出这是哪种可能性。你知道程序崩溃时调用堆栈在哪个库中吗?虽然不能保证这是问题的实际根源,但它至少是一个开始寻找错误的地方…