为什么 std::inner_product 比朴素的实现慢

Why is std::inner_product slower than the naive implementation?

本文关键字：实现 product std inner 为什么更新时间：2023-10-16

这是我对点积的天真实现：

float simple_dot(int N, float *A, float *B) {
    float dot = 0;
    for(int i = 0; i < N; ++i) {
    dot += A[i] * B[i];
    }
    return dot;
}

这是使用C++库：

float library_dot(int N, float *A, float *B) {
    return std::inner_product(A, A+N, B, 0);
}

我运行了一些基准测试(代码在这里 https://github.com/ijklr/sse(，库版本要慢得多。我的编译器标志是-Ofast -march=native

你的两个函数不做同样的事情。该算法使用累加器，其类型是从初始值推导出来的，在您的情况下(0(是int。将浮点数累积到 int 中不仅比累积成浮点数花费更长的时间，而且还会产生不同的结果。

原始循环代码的等效项是使用初始值 0.0f ，或等效地使用 float{} 。

(请注意，std::accumulate在这方面非常相似。