SSE 内联汇编和可能的 g++ 优化错误

SSE inline assembly and possible g++ optimization bug

本文关键字：g++ 优化错误汇编 SSE 更新时间：2023-10-16

让我们从代码开始。我有两个结构，一个用于向量，另一个用于矩阵。

struct AVector
{
explicit AVector(float x=0.0f, float y=0.0f, float z=0.0f, float w=0.0f):
x(x), y(y), z(z), w(w) {}
AVector(const AVector& a):
x(a.x), y(a.y), z(a.z), w(a.w) {}
AVector& operator=(const AVector& a) {x=a.x; y=a.y; z=a.z; w=a.w; return *this;}
float x, y, z, w;
};
struct AMatrix
{
// Row-major
explicit AMatrix(const AVector& a=AVector(), const AVector& b=AVector(), const AVector& c=AVector(), const AVector& d=AVector())
{row[0]=a; row[1]=b; row[2]=c; row[3]=d;}
AMatrix(const AMatrix& m) {row[0]=m.row[0]; row[1]=m.row[1]; row[2]=m.row[2]; row[3]=m.row[3];}
AMatrix& operator=(const AMatrix& m) {row[0]=m.row[0]; row[1]=m.row[1]; row[2]=m.row[2]; row[3]=m.row[3]; return *this;}
AVector row[4];
};

接下来，对这些结构执行计算的代码。使用内联 ASM 和 SSE 指令的点产品：

inline AVector AVectorDot(const AVector& a, const AVector& b)
{
// XXX
/*const double v=a.x*b.x+a.y*b.y+a.z*b.z+a.w*b.w;
return AVector(v, v, v, v);*/
AVector c;
asm volatile(
"movups (%1), %%xmm0nt"
"movups (%2), %%xmm1nt"
"mulps %%xmm1, %%xmm0nt"          // xmm0 -> (a1+b1, , , )
"movaps %%xmm0, %%xmm1nt"         // xmm1 = xmm0
"shufps $0xB1, %%xmm1, %%xmm1nt"  // 0xB1 = 10110001
"addps %%xmm1, %%xmm0nt"          // xmm1 -> (x, y, z, w)+(y, x, w, z)=(x+y, x+y, z+w, z+w)
"movaps %%xmm0, %%xmm1nt"         // xmm1 = xmm0
"shufps $0x0A, %%xmm1, %%xmm1nt"  // 0x0A = 00001010
"addps %%xmm1, %%xmm0nt"          // xmm1 -> (x+y+z+w, , , )
"movups %%xmm0, %0nt"
: "=m"(c)
: "r"(&a), "r"(&b)
);
return c;
}

矩阵转置：

inline AMatrix AMatrixTranspose(const AMatrix& m)
{
AMatrix c(
AVector(m.row[0].x, m.row[1].x, m.row[2].x, m.row[3].x),
AVector(m.row[0].y, m.row[1].y, m.row[2].y, m.row[3].y),
AVector(m.row[0].z, m.row[1].z, m.row[2].z, m.row[3].z),
AVector(m.row[0].w, m.row[1].w, m.row[2].w, m.row[3].w));
// XXX
/*printf("AMcrix c:n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n",
c.row[0].x, c.row[0].y, c.row[0].z, c.row[0].w,
c.row[1].x, c.row[1].y, c.row[1].z, c.row[1].w,
c.row[2].x, c.row[2].y, c.row[2].z, c.row[2].w,
c.row[3].x, c.row[3].y, c.row[3].z, c.row[3].w);*/
return c;
}

矩阵-矩阵乘法 - 转置第一个矩阵，因为当我将其存储为列主矩阵，将第二个矩阵存储为行主矩阵时，我可以使用点积执行乘法。

inline AMatrix AMatrixMultiply(const AMatrix& a, const AMatrix& b)
{
AMatrix c;
const AMatrix at=AMatrixTranspose(a);
// XXX
/*printf("AMatrix at:n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n",
at.row[0].x, at.row[0].y, at.row[0].z, at.row[0].w,
at.row[1].x, at.row[1].y, at.row[1].z, at.row[1].w,
at.row[2].x, at.row[2].y, at.row[2].z, at.row[2].w,
at.row[3].x, at.row[3].y, at.row[3].z, at.row[3].w);*/
for(int i=0; i<4; ++i)
{
c.row[i].x=AVectorDot(at.row[0], b.row[i]).w;
c.row[i].y=AVectorDot(at.row[1], b.row[i]).w;
c.row[i].z=AVectorDot(at.row[2], b.row[i]).w;
c.row[i].w=AVectorDot(at.row[3], b.row[i]).w;
}
return c;
}

现在是主要(双关语(部分的时间：

int main(int argc, char *argv[])
{
AMatrix a(
AVector(0, 1, 0, 0),
AVector(1, 0, 0, 0),
AVector(0, 0, 0, 1),
AVector(0, 0, 1, 0)
);
AMatrix b(
AVector(1, 0, 0, 0),
AVector(0, 2, 0, 0),
AVector(0, 0, 3, 0),
AVector(0, 0, 0, 4)
);
AMatrix c=AMatrixMultiply(a, b);
printf("AMatrix c:n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n    [%5.2f %5.2f %5.2f %5.2f]n",
c.row[0].x, c.row[0].y, c.row[0].z, c.row[0].w,
c.row[1].x, c.row[1].y, c.row[1].z, c.row[1].w,
c.row[2].x, c.row[2].y, c.row[2].z, c.row[2].w,
c.row[3].x, c.row[3].y, c.row[3].z, c.row[3].w);
AVector v(1, 2, 3, 4);
AVector w(1, 1, 1, 1);
printf("Dot product: %f (1+2+3+4 = 10)n", AVectorDot(v, w).w);
return 0;
}

在上面的代码中，我制作了两个矩阵，将它们相乘并打印出结果矩阵。如果我不使用任何编译器优化(g++ main.cpp-O0 -msse(，它可以正常工作。启用优化(g++ main.cpp-O1 -msse(后，结果矩阵为空(所有字段均为零(。取消注释任何标有XXX的块会使程序写入正确的结果。

在我看来，GCC 从 AMatrixMultiply 函数中优化了矩阵，因为它错误地假设它没有在 AVectorDot 中使用，而 AVectorDot 是使用 SSE 内联编写的。

最后几行检查点积函数是否真的有效，是的，确实有效。

所以，问题是：我是否做错了或理解错了什么，或者这是 GCC 中的某种错误？我的猜测是上面的 7：3 混合。

我使用的是 GCC 版本 5.1.0 (tdm-1(。

这也是使用 SSE 对矩阵进行乘法的一种非常低效的方法。如果它比现代 CPU 上具有如此多浮点吞吐量的标量实现快得多，我会感到惊讶。这里概述了一个更好的方法，不需要显式转置：

AMatrix & operator *= (AMatrix & m0, const AMatrix & m1)
{
__m128 r0 = _mm_load_ps(& m1[0][x]);
__m128 r1 = _mm_load_ps(& m1[1][x]);
__m128 r2 = _mm_load_ps(& m1[2][x]);
__m128 r3 = _mm_load_ps(& m1[3][x]);
for (int i = 0; i < 4; i++)
{
__m128 ti = _mm_load_ps(& m0[i][x]), t0, t1, t2, t3;
t0 = _mm_shuffle_ps(ti, ti, _MM_SHUFFLE(0, 0, 0, 0));
t1 = _mm_shuffle_ps(ti, ti, _MM_SHUFFLE(1, 1, 1, 1));
t2 = _mm_shuffle_ps(ti, ti, _MM_SHUFFLE(2, 2, 2, 2));
t3 = _mm_shuffle_ps(ti, ti, _MM_SHUFFLE(3, 3, 3, 3));
ti = t0 * r0 + t1 * r1 + t2 * r2 + t3 * r3;
_mm_store_ps(& m0[i][x], ti);
}
return m0;
}

在现代编译器上，如gcc和clang，t0 * r0 + t1 * r1 + t2 * r2 + t3 * r3实际上是在__m128类型上运行的;尽管如果你愿意，你可以用_mm_mul_ps和_mm_add_ps内部函数替换它们。

按值返回只需添加一个函数，例如：

inline AMatrix operator * (const AMatrix & m0, const AMatrix & m1)
{
AMatrix lhs (m0); return (lhs *= m1);
}

就个人而言，我只是用alignas (16) float _s[4] = {};或类似替换float x, y, z, w;- 所以默认情况下你会得到一个"零向量"，或者一个默认的构造函数：

constexpr AVector () = default;

以及不错的构造函数，例如：

constexpr Vector (float x, float y, float z, float w)
: _s {x, y, z, w} {}

您的内联程序集缺少一些约束：

asm volatile(
"movups (%1), %%xmm0nt"
"movups (%2), %%xmm1nt"
"mulps %%xmm1, %%xmm0nt"          // xmm0 -> (a1+b1, , , )
"movaps %%xmm0, %%xmm1nt"         // xmm1 = xmm0
"shufps $0xB1, %%xmm1, %%xmm1nt"  // 0xB1 = 10110001
"addps %%xmm1, %%xmm0nt"          // xmm1 -> (x, y, z, w)+(y, x, w, z)=(x+y, x+y, z+w, z+w)
"movaps %%xmm0, %%xmm1nt"         // xmm1 = xmm0
"shufps $0x0A, %%xmm1, %%xmm1nt"  // 0x0A = 00001010
"addps %%xmm1, %%xmm0nt"          // xmm1 -> (x+y+z+w, , , )
"movups %%xmm0, %0nt"
: "=m"(c)
: "r"(&a), "r"(&b)
);

GCC不知道这个汇编器片段会%xmm0和%xmm1，所以在片段运行后，它可能不会将这些寄存器重新加载到以前的值。一些额外的碎屑也可能丢失。