优化bitset操作

Optimizing bitset operation

本文关键字：操作 bitset 优化更新时间：2023-10-16

我希望优化这段代码。BitSetPattern的大小为512,BitSetOut的长度为2048。

基本上这段代码所做的，它采用4个BitSetPatterns并通过连接它们创建一个BitSetOut。每复制一个比特要花太多时间。

我认为OR和SHIFT可以解决这种情况，但是操作符只能取相同长度的位集。也无法用较小的bitset初始化bitset，并将剩余的位填充为0。

unsigned outputIter = 0;
BitSetPattern output(0);
for (int i = 3; i >= 0; i--)
{
    BitSetOut currentInput = this->input[ i ]->getOutput();
    for (unsigned j = 0; j < currentInput.size(); j++)
    {
        output[ outputIter ] = currentInput[ j ];
        outputIter++;
    }
}
return output;

我已经对代码进行了概要分析，这是一个花费太多时间的方法

这是一个非常不安全的解决方案，您应该不要使用:

assert (sizeof(output) == output.size() / 8);
assert ((output.size() / 8) == 0);
int offset = 0;
for (int i = 3; i >= 0; --i)
{
    auto const sz = input[i].size();
    assert ((sz % 8) == 0);
    assert (offset + (sz / 8) <= output.size());
    memcpy (((char*)&(output)) + offset, (char*)&(input[i]), sz / 8);
    offset += sz / 8;
}

基本上，这试图确保安全，并确保bitset中除了位(没有填充，对齐，可能大小甚至压缩位)之外没有其他内容。然后将它们作为一个整体复制。

在标准(AFAIK)中没有任何东西保证这将工作。它甚至可能不适用于现有的实现，但我相信它"应该"适用于直接的std::bitset实现。

它可能可以加快复制部分。因为你知道你的数据的大小，它是非常小的，你可以直接写SSE或甚至AVX内部函数，将那些512位的源地址复制到目标地址。

还有三种方法可以尝试:

如果你绝对确定你的大小保持不变(例如2048和512位)，使用常数值并放弃算术和断言。这个可能有帮助，这取决于你的编译器如何处理memcpy(一些编译器在某些情况下优化它，例如，如果大小是常数和字长的倍数，等等)
确保您的位缓冲区分配在缓存行大小的倍数(例如64字节)的地址上。这是为了确保你不会触及多余的缓存行。

你可以尝试帮助内存"预取器"通过触摸下一个输入缓冲区在每次迭代。例如:

char * output_ptr = (char *)&output;
char * input_ptrs [4] = {(char*)&(input[0]), (char*)&(input[1]), ...};
volatile char dummy = 0;
dummy += input_ptrs[2][0];                    // prefetch the next one
memcpy (output_ptr +   0, input_ptrs[3], 64); // copy
dummy += input_ptrs[1][0];                    // prefetch the next one
memcpy (output_ptr +  64, input_ptrs[2], 64); // copy
dummy += input_ptrs[0][0];                    // prefetch the next one
memcpy (output_ptr + 128, input_ptrs[1], 64); // copy
memcpy (output_ptr + 192, input_ptrs[0], 64); // copy