理解__m128i标志的位对齐

Understanding bit alignment for an __m128i flag

本文关键字:对齐 标志 m128i 理解      更新时间:2023-10-16

我试图理解SSE strstr实现,一个特定的函数正在做一些我不太理解的事情,将const unsigned char*加载到__m128i中。函数是__m128i_strloadu函数(取自这里:http://strstrsse.googlecode.com/svn-history/r135/trunk/strmatch/lib/strstrsse42.c):

)
static inline __m128i __m128i_strloadu (const unsigned char * p) {
 int offset = ((size_t) p & (16 - 1));
 if (offset && (int) ((size_t) p & 0xfff) > 0xff0) {
   __m128i a    = _mm_load_si128 ((__m128i *) (p - offset));
   __m128i zero = _mm_setzero_si128 ();
   // I don't understand what this movemask, in concert
   // with the shift right comparison below, are accomplishing
   int bmsk     = _mm_movemask_epi8 (_mm_cmpeq_epi8 (a, zero));
   if ((bmsk >> offset) != 0) {
     return __m128i_shift_right(a, offset);
   }
 }
 return _mm_loadu_si128 ((__m128i *) p);
}

我觉得这是一个简单的对齐到16位的操作,但是我很难想象它是如何发生的。movemask比较在这里完成了什么/它在检查什么?

它正在测试字符串的末尾是否在这个块中,如果是,它将移出多余的字节并返回。否则,它继续执行正常的未对齐加载,避免移位并包含"此字符串的更多内容"而不是虚假的零。

掩码是16字节块中字节为零的掩码。bmsk >> offset是掩码的一部分,表示被请求的字节(从p开始),额外的字节是由于对齐。