boost::序列化中的派生类偏移量计算.有效吗?

Derived class offset calculation in boost::serialization. Is it valid?

本文关键字：计算有效偏移量派生序列化 boost 更新时间：2023-10-16

boost::serialization包含以下代码：

reinterpret_cast<std::ptrdiff_t>(
static_cast<Derived *>(
reinterpret_cast<Base *>(1 << 20)
)
) - (1 << 20)

其目的是计算基类和派生类之间的偏移量。此代码是否没有未定义的行为？

我问的原因是ASAN+UBSAN抱怨。例如，此代码

#include <iostream>
class Foo { public: virtual void foo() {} };
class Base { public: virtual void base() {} };
class Derived: public Foo, public Base {};
int main()
{
std::cout <<
(reinterpret_cast<std::ptrdiff_t>(
static_cast<Derived *>(
reinterpret_cast<Base *>(1 << 20)
)
) - (1 << 20));
}

编译为 (GCC 版本 9.2.1(

g++ -fsanitize=address -fsanitize=undefined -fno-omit-frame-pointer -g main.cpp

产生此输出

AddressSanitizer:DEADLYSIGNAL
=================================================================
==72613==ERROR: AddressSanitizer: SEGV on unknown address 0x0000000ffff8 (pc 0x0000004012d9 bp 0x7ffd5b3eecf0 sp 0x7ffd5b3eece0 T0)
==72613==The signal is caused by a READ memory access.
#0 0x4012d8 in main main.cpp:13
#1 0x7f74a90d5f42 in __libc_start_main (/lib64/libc.so.6+0x23f42)
#2 0x40112d in _start (/home/.../a.out+0x40112d)
AddressSanitizer can not provide additional info.
SUMMARY: AddressSanitizer: SEGV main.cpp:13 in main

是误报还是此代码确实有问题？

更新09.12.2019：根据Filipp的提议和我的实验，此代码似乎有效并且不会产生任何警告：

std::aligned_storage<sizeof(Derived)>::type data;
reinterpret_cast<char*>(&data)
- reinterpret_cast<char*>(
static_cast<Base*>(
reinterpret_cast<Derived*>(&data)));

有人看到这个片段有任何问题吗？如果没有，我会向boost提出。

更新 16.12.2019：修复已合并到boost::serializationdevelop分支。

正如另一个答案所示，问题是(1 << 20)不是任何对象的地址。使用原则上可以存储Derived的char[]似乎可以解决此问题：

#include <stdint.h>
#include <stddef.h>
#include <stdio.h>
class Foo { public: virtual void foo() {} };
class Base { public: virtual void base() {} };
class Derived: public Foo, public Base {};
int main() {
alignas (Derived) char const buffer[sizeof(Derived)] = {};
Derived const* const derived = reinterpret_cast<Derived const*>(buffer);
Base const* const base = derived;
ptrdiff_t const delta =
reinterpret_cast<char const*>(derived) -
reinterpret_cast<char const*>(base);
::printf("%tdn", delta);
return 0;
}

是误报还是此代码确实有问题？

根据对标准的严格解读，代码确实表现出 UB，因此从这个意义上说，它不是误报。在实践中，boost作者和编译器编写者都同意这只是指针数学，所以无论如何它都应该做正确的事情。

编辑：除非所涉及的基地之一是virtual。然后演员将尝试从 vtable 读取偏移量。

编辑 2：使用nullptr生成 0。更改为使用本地对齐的缓冲区。

reinterpret_cast<Base *>(1 << 20)

这不是一个有效的指针。

static_cast它需要评估它，它有未定义的行为。

这是一个有趣的"技巧"，但它似乎没有明确的定义，-fsanitize选项的结果证实了这一点。

这对boost::serialization来说似乎并不罕见。