如何安全地将有符号字段从uint32_t提取到有符号数字(int或uint32_t)中

How to safely extract a signed field from a uint32_t into a signed number (int or uint32_t)

本文关键字:符号 uint32 提取 数字 int 字段 何安全 安全      更新时间:2023-10-16

我有一个项目,在这个项目中,我得到了一个32位ARM指令的向量,其中一部分指令(偏移值(需要读取为有符号(2的补码(数,而不是无符号数。

我使用了uint32_t矢量,因为所有操作码和寄存器都是无符号读取的,整个指令是32位。

例如:

我有这个32位ARM指令编码:

uint32_t addr = 0b00110001010111111111111111110110

最后19位是分支的偏移量,我需要将其读取为带符号整数分支位移。此部分:11111111111 0110


我有一个函数,其中参数是整个32位指令:我向左移动13位,然后再次向右移动13位以仅具有偏移值,并移动指令的其他部分。

我尝试过这个函数转换为不同的有符号变量,使用不同的转换方式和其他c++函数,但它打印的数字是无符号的。

int getCat1BrOff(uint32_t inst)
{
uint32_t temp = inst << 13;
uint32_t brOff = temp >> 13;
return (int)brOff;
}

我得到的是十进制数524278,而不是-10

我认为最后一个选项不是最好的,但它可能会起作用,那就是设置字符串中的所有二进制值。反转比特并加1进行转换,然后将新的二进制数转换回十进制。正如我在论文中所做的那样,但这不是一个好的解决方案。

它可以归结为进行符号扩展,其中符号位是第19位。有两种方法。

  1. 使用算术移位
  2. 检测符号位和/或高位的符号位

没有可移植的方法来执行1。在C++中。但它可以在编译时进行检查。如果下面的代码是UB,请纠正我,但我相信它只是定义的实现——我们在编译时会检查它。唯一有问题的是无符号到有符号的转换(溢出(和右移,但这应该由实现定义。

int getCat1BrOff(uint32_t inst)
{
if constexpr (int32_t(0xFFFFFFFFu) >> 1 == int32_t(0xFFFFFFFFu))
{
return int32_t(inst << uint32_t{13}) >> int32_t{13};
}
else
{
int32_t offset = inst & 0x0007FFFF;
if (offset & 0x00040000)
{
offset |= 0xFFF80000;
}
return offset;
}
}

或更通用的解决方案

template <uint32_t N>
int32_t signExtend(uint32_t value)
{
static_assert(N > 0 && N <= 32);
constexpr uint32_t unusedBits = (uint32_t(32) - N);
if constexpr (int32_t(0xFFFFFFFFu) >> 1 == int32_t(0xFFFFFFFFu))
{
return int32_t(value << unusedBits) >> int32_t(unusedBits);
}
else
{
constexpr uint32_t mask = uint32_t(0xFFFFFFFFu) >> unusedBits;
value &= mask;
if (value & (uint32_t(1) << (N-1)))
{
value |= ~mask;
}
return int32_t(value);
}
}

https://godbolt.org/z/rb-rRB

在实践中,您只需要将temp声明为已签名:

int getCat1BrOff(uint32_t inst)
{
int32_t temp = inst << 13;
return temp >> 13;
}

不幸的是,这是不可移植的:

对于负a,a>>b的值是实现定义的(在大多数情况下实现时,这将执行算术右移,以便结果保持为阴性(。

但我还没有遇到一个编译器,它不能做这里显而易见的事情。