通过对输入参数的多次传递实现完美转发

Perfect forwarding with multiple passes over input arguments

本文关键字：实现完美转发输入参数更新时间：2023-10-16

考虑以下函数accept，该函数接受类型为T的"通用引用"，并将其转发给具有左值重载和右值重载的parse<T>()函数对象：

template<class T>
void accept(T&& arg)
{
    parse<T>()(std::forward<T>(arg), 0); // copy or move, depending on rvaluedness of arg
}
template<class T>
class parse
{
    // parse will modify a local copy or move of its input parameter
    void operator()(T const& arg, int n) const { /* optimized for lvalues */ }
    void operator()(T&& arg)    , int n) const { /* optimized for rvalues */ }
};

由于完全转发使源对象处于有效但未定义的状态，因此不可能在同一范围内再次完全转发。下面我尝试在一个假设的split()函数中尽可能少地复制一个int，该函数表示必须对输入数据进行的次数：

template<class T>
void split(T&& arg, int n)
{
    for (auto i = 0; i < n - 1; ++i)
        parse<T>()(arg , i);                 // copy n-1 times
    parse<T>()(std::forward<T>(arg), n - 1); // possibly move the n-th time
}

问题：这是对同一数据的多次传递应用完美转发的推荐方法吗？如果没有，有什么更惯用的方法可以最大限度地减少副本数量？

问题：这是对同一数据的多次传递应用完美转发的推荐方法吗？

是的，当您需要多次传递数据时，这是应用完美转发（或移动）的推荐方法。只有在您最后一次访问时才（可能）离开它。事实上，这种情况在最初的移动论文中就已经预见到了，这正是用类型右值引用声明的"命名"变量没有被隐式移动的原因。来自N1377:

即使命名的右值引用可以绑定到右值，它们也是在使用时被视为左值。例如：

struct A {};
void h(const A&);
void h(A&&);
void g(const A&);
void g(A&&);
void f(A&& a)
{
    g(a);  // calls g(const A&)
    h(a);  // calls h(const A&)
}

尽管右值可以绑定到f（）的"a"参数，但一旦绑定现在被视为左值。特别是，对重载的调用函数g（）和h（）解析为常量A&（左值）过载。将"a"视为f中的右值会导致容易出错的代码：首先，将调用g（）的"移动版本"，这可能盗窃"a"，然后被盗窃的"a"将被送往移动h（）的过载。

如果你想让h(a)在上面的例子中移动，你必须明确地这样做：

    h(std::move(a));  // calls h(A&&);

正如Casey在评论中指出的那样，在传递lvalues:时会出现过载问题

#include  <utility>
#include  <type_traits>
template<class T>
class parse
{
    static_assert(!std::is_lvalue_reference<T>::value,
                               "parse: T can not be an lvalue-reference type");
public:
    // parse will modify a local copy or move of its input parameter
    void operator()(T const& arg, int n) const { /* optimized for lvalues */ }
    void operator()(T&& arg     , int n) const { /* optimized for rvalues */ }
};
template<class T>
void split(T&& arg, int n)
{
    typedef typename std::decay<T>::type Td;
    for (auto i = 0; i < n - 1; ++i)
        parse<Td>()(arg , i);                 // copy n-1 times
    parse<Td>()(std::forward<T>(arg), n - 1); // possibly move the n-th time
}

如上所述，我已经按照Casey的建议修复了它，通过使用std::decay仅在非引用类型上实例化parse<T>。我还添加了一个static_assert，以确保客户端不会意外地犯下这个错误。static_assert并不是绝对必要的，因为无论如何都会出现编译时错误。然而，static_assert可以提供更可读的错误消息。

不过，这并不是解决问题的唯一方法。另一种允许客户端用左值引用类型实例化parse的方法是部分专门化解析：

template<class T>
class parse<T&>
{
public:
    // parse will modify a local copy or move of its input parameter
    void operator()(T const& arg, int n) const { /* optimized for lvalues */ }
};

现在客户端不需要做decay舞蹈：

template<class T>
void split(T&& arg, int n)
{
    for (auto i = 0; i < n - 1; ++i)
        parse<T>()(arg , i);                 // copy n-1 times
    parse<T>()(std::forward<T>(arg), n - 1); // possibly move the n-th time
}

如果需要，您可以在parse<T&>下应用特殊逻辑。

（我知道，这是一个旧线程）

如注释中所述，数据是uint64_t的大数组或向量。与防止最终拷贝的参数传递相比，更好的优化可能是优化的许多拷贝操作

读取一次
写多次（每次预定传球）

在一个步骤中，而不是在多个独立副本中。

一个起点可能是这种更快的memcpy替代品？它的答案包括类似memcpy的代码。您必须将写入目标的代码行相乘，才能写入数据的多个副本。

您还可以组合memset和memcpy，前者经过优化，可以一次又一次地将相同的值写入内存，后者经过优化，每个块可以读取和写入内存块一次。您可以在此处查看优化的源代码：https://github.com/KNNSpeed/AVX-Memmove

最佳代码将特定于所使用的体系结构和处理器。因此，你必须测试和比较你所达到的速度。