比特流优化

Bitstream Optimizations

本文关键字：优化更新时间：2023-10-16

我有一个程序，可以从比特流中读取大量数据。我这样做的方式并不高效，因为在进行性能测试时，大部分时间都花在read功能上。这是我的读取函数：

uint32_t bitstream::read(bitstream::size_type n) {
    uint32_t a = data[pos / 32];
    uint32_t b = data[(pos + n - 1) / 32];
    uint32_t shift = pos & 31;
    a >>= shift;
    b <<= 32 - shift;
    uint32_t mask = (uint32_t)(((uint64_t)1 << n) - 1);
    uint32_t ret = (a | b) & mask;
    pos += n;
    return ret;
}

如何进一步优化？我的探查器说这个函数的大部分时间都花在计算上。

编辑：

关于内部结构，这是我设置数据的方式：

bitstream::bitstream(const std::string &dat) : size( dat.size()*8 ) {
    // data has the type std::vector<uint32_t>
    data.resize((dat.size() + 3) / 4 + 1);
    memcpy(&data[0], dat.c_str(), dat.size());
}

您总是读取相同数量的位数，还是有所不同？

如果是，那么您可以尝试编写一个函数来仅读取那么多位：n常量可能会允许编译器进行一些更积极的优化。（如果n总是 1，那么你可以写一个更简单的读取方法）

答案主要取决于您使用的 CPU 架构和编译器，而不是语言。如果您的 CPU <32 位，或者在右移位方面做得不好和/或编译器的位移位子例程被天真地实现，那么您通常不走运。您可以牺牲大量的程序内存并显式编写所有情况（即 switch（）-ing 在 pos 模 32 与 n 的组合上），或者您可以尝试通过短路uint16_t和uint8_t并集的移位来完成编译器工作。

在代码中可以非常便宜地做的是使用预先计算的类 const 数组作为掩码，而不是每次在函数中计算它。

您可以

尝试在uint64_t中保留 64 位的缓冲区，一旦它低于 32 位，就会读取另一个 32 位字。如果您经常读取小于 32 位的大小，这可能会有所帮助。

如果pos可以是0，那么shift也可以是0。因此，b向左移动 32 位，有效地将其设置为 0，而a向右移动 0 也不起作用。您应该提前终止这种情况，以避免无意义的操作。

此外，您可以尝试使用掩码表来消除一个班次操作，您需要一个只有 32 个条目的uint32_t数组。

大多数现代英特尔 CPU 都有两个 ALU 单元，要求它们连续执行三个 shfit，然后通过使用更多的 ALU 操作来计算结果，这取决于这些偏移的结果，这将限制您的吞吐量。

最后，如果代码将在具有 BMI 功能的 CPU 上执行，则可以使用 BEXTR 指令或内联函数从位置 start 开始从src中提取len位。

有关位操作说明的详细信息，请参阅 http://en.wikipedia.org/wiki/Bit_Manipulation_Instruction_Sets。