为什么 std::inner_product 比朴素的实现慢
Why is std::inner_product slower than the naive implementation?
这是我对点积的天真实现:
float simple_dot(int N, float *A, float *B) {
float dot = 0;
for(int i = 0; i < N; ++i) {
dot += A[i] * B[i];
}
return dot;
}
这是使用C++库:
float library_dot(int N, float *A, float *B) {
return std::inner_product(A, A+N, B, 0);
}
我运行了一些基准测试(代码在这里 https://github.com/ijklr/sse(,库版本要慢得多。我的编译器标志是-Ofast -march=native
你的两个函数不做同样的事情。该算法使用累加器,其类型是从初始值推导出来的,在您的情况下(0
(是int
。将浮点数累积到 int 中不仅比累积成浮点数花费更长的时间,而且还会产生不同的结果。
原始循环代码的等效项是使用初始值 0.0f
,或等效地使用 float{}
。
(请注意,std::accumulate
在这方面非常相似。
相关文章:
- 如果没有malloc,链表实现将失败
- 如何在c++中实现处理器调度模拟器
- 如何在c++中使用引用实现类似python的行为
- 实现无开销push_back的最佳方法是什么
- 使用简单类型列表实现的指数编译时间.为什么
- 如何在BST的这个简单递归实现中消除警告
- 实现一个在集合上迭代的模板函数
- 我应该实现右值推送功能吗?我应该使用std::move吗
- 如何正确实现和访问运算符的各种自定义枚举器
- C++Union/Struct位域的实现和可移植性
- 这个极客对极客的trie实现是否存在内存泄漏问题
- 在c++中实现LinkedList时,应出现未处理的错误
- 为左值和右值的包装器实现C++范围
- 使用模板进行堆栈实现; "name followed by :: must be a class or namespace"
- 使用GSoap实现ONVIF
- 在用于格式4的arm模拟器中实现功能时的一个问题
- 用于AVX的ln(x)的实现,m256
- 用常见虚拟函数实现的任意组合来实现派生类的正确方法是什么
- 在C++中,如何在类和函数(可能是模板化的)的头中编写完整的实现
- std::random_device是如何实现的