使用 memcpy 和 memset 重新分配数组

Reallocate array with memcpy and memset

本文关键字：分配数组新分配 memcpy memset 使用更新时间：2023-10-16

我接管了一些代码，并遇到了一个奇怪的数组重新分配。这是来自 Array 类(由 JsonValue 使用(中的函数

void reserve( uint32_t newCapacity ) {
if ( newCapacity > length + additionalCapacity ) {
newCapacity = std::min( newCapacity, length + std::numeric_limits<decltype( additionalCapacity )>::max() );
JsonValue *newPtr = new JsonValue[newCapacity];
if ( length > 0 ) {
memcpy( newPtr, values, length * sizeof( JsonValue ) );
memset( values, 0, length * sizeof( JsonValue ) );
}
delete[] values;
values = newPtr;
additionalCapacity = uint16_t( newCapacity - length );
}
}

我明白这一点;它只是分配一个新数组，并将旧数组中的内存内容复制到新数组中，然后将旧数组的内容清零。我也知道这样做是为了防止调用析构函数和移动。

JsonValue是一个具有函数的类，以及一些存储在联合中的数据(字符串、数组、数字等(。

我担心的是这是否真的是定义的行为。我知道它有效，自从几个月前我们开始使用它以来就没有问题;但如果它未定义，那么这并不意味着它会继续工作。

编辑：JsonValue看起来像这样：

struct JsonValue {
// …
~JsonValue() {
switch ( details.type ) {
case Type::Array:
case Type::Object:
array.destroy();
break;
case Type::String:
delete[] string.buffer;
break;
default: break;
}
}
private:
struct Details {
Key key = Key::Unknown;
Type type = Type::Null; // (0)
};
union {
Array array;
String string;
EmbedString embedString;
Number number;
Details details;
};
};

其中Array是围绕JsonValue数组的包装器，String是char*，EmbedString是char[14]，Number是int、unsigned int和double的并集，Details包含它所持有的值的类型。所有值的开头都有 16 位未使用的数据，用于Details。例：

struct EmbedString {
uint16_t : 16;
char buffer[14] = { 0 };
};

此代码是否具有明确定义的行为基本上取决于两件事：1( 是否JsonValue平凡可复制，2( 如果是，一堆全零字节是否是JsonValue的有效对象表示形式。

如果JsonValue是微不足道的可复制的，那么从一个JsonValue数组到另一个数组的memcpy确实等效于通过 [basic.types]/3 复制所有元素。如果全零是JsonValue的有效对象表示，那么memset应该没问题(我相信这实际上与标准的当前措辞有点灰色地带，但我相信至少意图是这很好(。

我不确定为什么您需要"防止调用析构函数和移动"，但用零覆盖对象不会阻止析构函数运行。delete[] values将调用数组成员的析构函数。并且移动一个简单可复制类型的数组的元素应该编译为仅复制字节。

此外，我建议摆脱这些String和EmbedString类，只需使用std::string。至少，在我看来，EmbedString的唯一目的是手动执行小字符串优化。任何值得一提的std::string实现都已经在引擎盖下做到这一点。请注意，std::string不能保证(并且通常不会(简单可复制。因此，您不能简单地将String和EmbedString替换为std::string，同时保留当前实现的其余部分。

如果您可以使用 C++17，我建议简单地使用std::variant而不是或至少在这个自定义JsonValue实现中，因为这似乎正是它试图做的。如果您需要将一些公共信息存储在变量值的前面，只需让一个合适的成员将该信息保存在保存变体值的成员前面，而不是依赖于从相同的几个成员开始的工会的每个成员(只有当所有工会成员都是标准布局类型，将此信息保存在其共同的初始序列 [class.mem]/23 中时，才会明确定义(。

Array的唯一目的似乎是充当一个向量，在出于安全原因释放内存之前将其归零。如果是这种情况，我建议只使用带有分配器的std::vector，该分配器在解除分配之前将内存归零。例如：

template <typename T>
struct ZeroingAllocator
{
using value_type = T;
T* allocate(std::size_t N)
{
return reinterpret_cast<T*>(new unsigned char[N * sizeof(T)]);
}
void deallocate(T* buffer, std::size_t N) noexcept
{
auto ptr = reinterpret_cast<volatile unsigned char*>(buffer);
std::fill(ptr, ptr + N, 0);
delete[] reinterpret_cast<unsigned char*>(buffer);
}
};
template <typename A, typename B>
bool operator ==(const ZeroingAllocator<A>&, const ZeroingAllocator<B>&) noexcept { return true; }
template <typename A, typename B>
bool operator !=(const ZeroingAllocator<A>&, const ZeroingAllocator<B>&) noexcept { return false; }

然后

using Array = std::vector<JsonValue, ZeroingAllocator<JsonValue>>;

注意：我通过volatile unsigned char*填充内存，以防止编译器优化归零。如果需要支持过度对齐的类型，可以将new[]和delete[]替换为对::operator new和::operator delete的直接调用(这样做将阻止编译器优化分配(。在 C++17 之前，您必须分配足够大的缓冲区，然后手动对齐指针，例如，使用std::align...