比特流优化
Bitstream Optimizations
我有一个程序,可以从比特流中读取大量数据。我这样做的方式并不高效,因为在进行性能测试时,大部分时间都花在read
功能上。这是我的读取函数:
uint32_t bitstream::read(bitstream::size_type n) {
uint32_t a = data[pos / 32];
uint32_t b = data[(pos + n - 1) / 32];
uint32_t shift = pos & 31;
a >>= shift;
b <<= 32 - shift;
uint32_t mask = (uint32_t)(((uint64_t)1 << n) - 1);
uint32_t ret = (a | b) & mask;
pos += n;
return ret;
}
如何进一步优化?我的探查器说这个函数的大部分时间都花在计算上。
编辑:
关于内部结构,这是我设置数据的方式:
bitstream::bitstream(const std::string &dat) : size( dat.size()*8 ) {
// data has the type std::vector<uint32_t>
data.resize((dat.size() + 3) / 4 + 1);
memcpy(&data[0], dat.c_str(), dat.size());
}
您总是读取相同数量的位数,还是有所不同?
如果是,那么您可以尝试编写一个函数来仅读取那么多位:n
常量可能会允许编译器进行一些更积极的优化。(如果n
总是 1,那么你可以写一个更简单的读取方法)
答案主要取决于您使用的 CPU 架构和编译器,而不是语言。如果您的 CPU <32 位,或者在右移位方面做得不好和/或编译器的位移位子例程被天真地实现,那么您通常不走运。您可以牺牲大量的程序内存并显式编写所有情况(即 switch()-ing 在 pos 模 32 与 n 的组合上),或者您可以尝试通过短路uint16_t和uint8_t并集的移位来完成编译器工作。
在代码中可以非常便宜地做的是使用预先计算的类 const 数组作为掩码,而不是每次在函数中计算它。
尝试在uint64_t中保留 64 位的缓冲区,一旦它低于 32 位,就会读取另一个 32 位字。如果您经常读取小于 32 位的大小,这可能会有所帮助。
如果pos
可以是0,那么shift
也可以是0。因此,b
向左移动 32 位,有效地将其设置为 0,而a
向右移动 0 也不起作用。您应该提前终止这种情况,以避免无意义的操作。
此外,您可以尝试使用掩码表来消除一个班次操作,您需要一个只有 32 个条目的uint32_t
数组。
大多数现代英特尔 CPU 都有两个 ALU 单元,要求它们连续执行三个 shfit,然后通过使用更多的 ALU 操作来计算结果,这取决于这些偏移的结果,这将限制您的吞吐量。
最后,如果代码将在具有 BMI 功能的 CPU 上执行,则可以使用 BEXTR 指令或内联函数从位置 start
开始从src
中提取len
位。
有关位操作说明的详细信息,请参阅 http://en.wikipedia.org/wiki/Bit_Manipulation_Instruction_Sets。
- 空基优化子对象的地址
- 关闭||运算符优化
- 如何解决gcc编译器优化导致的centos双编译器设置中的分段错误
- 返回值优化:显式移动还是隐式
- 人脸跟踪arduino代码的优化
- 使用仅使用一次的变量调用的复制构造函数.这可能是通过调用move构造函数进行编译器优化的情况吗
- 纯函数,为什么没有优化
- 为什么大多数 pair 实现默认不使用压缩(空基优化)?
- 如何以优化的方式同时迭代两个间距不相等的数组
- 小字符串优化(调试与发布模式)
- 浮点定向舍入和优化
- Visual Studio 调试优化如何工作?
- 为什么开关的优化方式与 c/c++ 中的链接不同?
- 线性优化目标函数中的绝对值
- GCC 会优化内联访问器吗?
- gcc 如何优化此循环?
- 如何防止 CUDA-GDB 中的<优化输出>值
- 为什么我的程序在 O0 和 O2 的优化级别返回不同的结果
- 这个C++编译器优化(在自身的实例上调用对象自己的构造函数)的名称是什么,它是如何工作的?
- 使用 std::p air 进行返回值优化