使用 clang 解析命名空间:在另一个源文件中包含标头或直接解析标头时,AST 差异

Parsing namespaces with clang: AST differences in when including a header in another source file or parsing it directly

很抱歉这个问题很冗长,但我看不出任何其他方法可以说清楚。 我正在编写一个工具,用于将C++头文件转换为 SWIG 接口文件,作为进一步微调的入门。

在这样做的过程中,我注意到 clang (v3.0( 的一些奇怪行为。 如果我解析头文件,得到的 AST 与解析包含头文件的源文件明显不同。



// example.cpp: Test case for nsbug.py
#include "example.h"


// example.h: Test case for nsbug.py
namespace Geom {
struct Location
    double x, y;
class Shape
    void set_location(const Location &where)
        m_pos = where;
    const Location &get_location() const
    // Draw it...
    virtual void draw() const = 0;
    Location m_pos;
class Circle : public Shape
    virtual void draw() const;
} // namespace Geom

我使用以下 Python 代码来解析它并转储 AST:

# Usage: python nsbug.py <file>
import sys
import clang.cindex
def indent(level):
    """ Indentation string for pretty-printing
    return '  '*level
def output_cursor(cursor, level):
    """ Low level cursor output
    spelling = ''
    displayname = ''
    if cursor.spelling:
        spelling = cursor.spelling
    if cursor.displayname:
        displayname = cursor.displayname
    kind = cursor.kind;
    print indent(level) + spelling, '<' + str(kind) + '>'
    print indent(level+1) + '"'  + displayname + '"'
def output_cursor_and_children(cursor, level=0):
    """ Output this cursor and its children with minimal formatting.
    output_cursor(cursor, level)
    if cursor.kind.is_reference():
        print indent(level) + 'reference to:'
        output_cursor(clang.cindex.Cursor_ref(cursor), level+1)
    # Recurse for children of this cursor
    has_children = False;
    for c in cursor.get_children():
        if not has_children:
            print indent(level) + '{'
            has_children = True
        output_cursor_and_children(c, level+1)
    if has_children:
        print indent(level) + '}'
index = clang.cindex.Index.create()
tu = index.parse(sys.argv[1], options=1)


  (Deleted lots of clang-generated declarations such as __VERSION__)
  Geom <CursorKind.NAMESPACE>
    Location <CursorKind.STRUCT_DECL>
      x <CursorKind.FIELD_DECL>
      y <CursorKind.FIELD_DECL>
    Shape <CursorKind.CLASS_DECL>
      Shape <CursorKind.CONSTRUCTOR>
      set_location <CursorKind.CXX_METHOD>
        "set_location(const Geom::Location &)"
        where <CursorKind.PARM_DECL>
            "struct Geom::Location"
          reference to:
            Location <CursorKind.STRUCT_DECL>
      get_location <CursorKind.CXX_METHOD>
          "struct Geom::Location"
        reference to:
          Location <CursorKind.STRUCT_DECL>
      m_pos <CursorKind.FIELD_DECL>
          "struct Geom::Location"
        reference to:
          Location <CursorKind.STRUCT_DECL>
    Circle <CursorKind.CLASS_DECL>
        "class Geom::Shape"
      reference to:
        Shape <CursorKind.CLASS_DECL>
          "class Geom::Shape"
        reference to:
          Shape <CursorKind.CLASS_DECL>
      Circle <CursorKind.CONSTRUCTOR>
      draw <CursorKind.CXX_METHOD>

但是当我在头文件上尝试使用它时python nsbug.py example.py我只得到:

  (deleted lots of clang-generated definitions such as __VERSION__)
  Geom <CursorKind.VAR_DECL>

为什么 AST 中的Geom名称空间是VAR_DECL? 我本来期望没有区别,除了预处理器游标。

解决方法是显而易见的 - 只需在内存中创建一个包含标头的临时文件 - 但这不是很令人满意。 有人可以开导我吗?

由于您没有显式指定语言,因此 Clang 会根据文件扩展名确定语言,从而导致"example.h"被解析为 C,而不是C++。因此,文件在很大程度上格式不正确,索引器会尝试尽可能好地恢复。 namespace Geom被视为具有未知类型namespaceGeom的变量声明,以及以下意外{... 跳过}块。


tu = index.parse(sys.argv[1], args=['-x', 'c++'])

虽然理查德的答案在这种情况下确实有效,但我可以遇到同样的问题,但这对我不起作用。 事实证明,python clang 绑定隐藏了错误消息。 如果运行以下命令:

clang -Xclang -ast-dump -fsyntax-only yourfile.cpp

这将打印出 AST 信息。 就我而言,它找不到头文件,因为它位于不同的目录中。 因此,我必须添加-I和传入args的附加包含路径,并且它起作用了。