比特流优化

Bitstream Optimizations

本文关键字:优化      更新时间:2023-10-16

我有一个程序,可以从比特流中读取大量数据。我这样做的方式并不高效,因为在进行性能测试时,大部分时间都花在read功能上。这是我的读取函数:

uint32_t bitstream::read(bitstream::size_type n) {
    uint32_t a = data[pos / 32];
    uint32_t b = data[(pos + n - 1) / 32];
    uint32_t shift = pos & 31;
    a >>= shift;
    b <<= 32 - shift;
    uint32_t mask = (uint32_t)(((uint64_t)1 << n) - 1);
    uint32_t ret = (a | b) & mask;
    pos += n;
    return ret;
}

如何进一步优化?我的探查器说这个函数的大部分时间都花在计算上。

编辑:

关于内部结构,这是我设置数据的方式:

bitstream::bitstream(const std::string &dat) : size( dat.size()*8 ) {
    // data has the type std::vector<uint32_t>
    data.resize((dat.size() + 3) / 4 + 1);
    memcpy(&data[0], dat.c_str(), dat.size());
}

您总是读取相同数量的位数,还是有所不同?

如果是,那么您可以尝试编写一个函数来仅读取那么多位:n常量可能会允许编译器进行一些更积极的优化。(如果n总是 1,那么你可以写一个更简单的读取方法)

答案主要取决于您使用的 CPU 架构和编译器,而不是语言。如果您的 CPU <32 位,或者在右移位方面做得不好和/或编译器的位移位子例程被天真地实现,那么您通常不走运。您可以牺牲大量的程序内存并显式编写所有情况(即 switch()-ing 在 pos 模 32 与 n 的组合上),或者您可以尝试通过短路uint16_t和uint8_t并集的移位来完成编译器工作。

在代码中可以非常便宜地做的是使用预先计算的类 const 数组作为掩码,而不是每次在函数中计算它。

您可以

尝试在uint64_t中保留 64 位的缓冲区,一旦它低于 32 位,就会读取另一个 32 位字。如果您经常读取小于 32 位的大小,这可能会有所帮助。

如果pos可以是0,那么shift也可以是0。因此,b向左移动 32 位,有效地将其设置为 0,而a向右移动 0 也不起作用。您应该提前终止这种情况,以避免无意义的操作。

此外,您可以尝试使用掩码表来消除一个班次操作,您需要一个只有 32 个条目的uint32_t数组。

大多数现代英特尔 CPU 都有两个 ALU 单元,要求它们连续执行三个 shfit,然后通过使用更多的 ALU 操作来计算结果,这取决于这些偏移的结果,这将限制您的吞吐量。

最后,如果代码将在具有 BMI 功能的 CPU 上执行,则可以使用 BEXTR 指令或内联函数从位置 start 开始从src中提取len位。

有关位操作说明的详细信息,请参阅 http://en.wikipedia.org/wiki/Bit_Manipulation_Instruction_Sets。