数组的并行求和比C++中的顺序求和慢
Parallel summation of the array is slower than the sequential one in C++
我编写了使用 C++ std::thread 对数组进行并行求和的代码。但并行求和需要 0.6 秒,顺序总和需要 0.3 秒。
我不认为这段代码在arr
或ret
上进行任何同步。
为什么会出现这种情况?
我的 CPU 是 i7-8700,它有 6 个物理内核。
#include <stdio.h>
#include <ctime>
#include <thread>
// Constants
#define THREADS 4
#define ARR_SIZE 200000000
int ret[THREADS];
// Function for thread.
void parallel_sum(int *arr, int thread_id) {
int s = ARR_SIZE / THREADS * thread_id, e = ARR_SIZE / THREADS * (thread_id + 1);
printf("%d, %dn", s, e);
for (int i = s; i < e; i++) ret[thread_id] += arr[i];
}
int main() {
// Variable definitions
int *arr = new int[ARR_SIZE]; // 1 billion
time_t t1, t2; // Variable for time consuming checking
std::thread *threads = new std::thread[THREADS];
// Initialization
for (int i = 0; i < ARR_SIZE; i++) arr[i] = 1;
for (int i = 0; i < THREADS; i++) ret[i] = 0;
long long int sum = 0;
// Parallel sum start
t1 = clock();
for (int i = 0; i < THREADS; i++) threads[i] = std::thread(parallel_sum, arr, i);
for (int i = 0; i < THREADS; i++) threads[i].join();
t2 = clock();
for (int i = 0; i < THREADS; i++) sum += ret[i];
printf("[%lf] Parallel sum %lld n", (float)(t2 - t1) / (float)CLOCKS_PER_SEC, sum);
// Parallel sum end
sum = 0; // Initialization
// Sequential sum start
t1 = clock();
for (int i = 0; i < ARR_SIZE; i++) sum += arr[i];
t2 = clock();
printf("[%lf] Sequential sum %lld n", (float)(t2 - t1) / (float)CLOCKS_PER_SEC, sum);
// Sequential sum end
return 0;
}
for (int i = s; i < e; i++) ret[thread_id] += arr[i];
这会导致大量缓存争用,因为数组ret
元素可能共享同一缓存行。它通常被称为虚假共享。
一个简单的解决方法是使用辅助(线程)局部变量进行循环更新,最后递增共享计数器,例如:
int temp = 0;
for (int i = s; i < e; i++) temp += arr[i];
ret[thread_id] += temp;
或者,最好对多线程总和使用类型 std::atomic<int>
的单个全局ret
。然后,您可以简单地编写:
int temp = 0;
for (int i = s; i < e; i++) temp += arr[i];
ret += temp;
或者,更有效率:
ret.fetch_add(temp, std::memory_order_relaxed);
启用编译器优化后(对任何其他方式进行基准测试都没有意义),我得到以下结果:
[0.093481] 并行和 200000000
[0.073333] 顺序总和 200000000
请注意,我们已经记录了这两种情况下的总 CPU 消耗。并行总和使用更多的总 CPU 并不奇怪,因为它必须启动线程并聚合结果。并行版本使用更多的 CPU 时间,因为它有更多的工作要做。
您不会记录挂载时间,但很可能是因为四个内核有助于完成这项工作,因此在并行情况下,挂墙时间可能更短。添加代码以记录经过的挂断时间显示,并行版本使用的挂断时间大约是串行版本的一半。至少,在我的机器上具有合理的编译器优化设置。
相关文章:
- CMake-按正确顺序将项目与C运行时对象文件链接
- 函数调用中参数的顺序重要吗
- 为什么不;名字在地图上是按顺序排列的吗
- 将Integer转换为4字节的unsined字符矢量(按大端字节顺序)
- 数到第n个楼梯的路(顺序无关紧要)
- 优先顺序:智能指针和类析构函数
- 在循环中按顺序遍历成员变量
- 独立读取-修改-写入顺序
- QML按钮点击功能执行顺序
- C++中数据类型修饰符的顺序
- 当比特(而不是字节)的顺序至关重要时的持久性
- C++从其他 constexpr 创建 lambda 不能按顺序执行 Constexpr
- 通过选项卡的文本设置QTabWidget顺序
- c++11评估顺序(未定义的行为)
- 如何在C++中递归地按相反顺序打印集合
- 给定顺序中的事件处理
- MPI 归约操作中的求和顺序
- 使用求和预测算法的理论平均案例效率和增长顺序
- 数组的并行求和比C++中的顺序求和慢
- 返回不正确值的数组的顺序求和