英特尔MIC模版计算
Intel MIC stencil computation
我想为Intel Xeon Phi协处理器(61核)编写有效的并行应用程序,它可以进行五点模板计算。我写了两个版本的代码。
第一:我使用OpenMP"#pragma omp parralel for"
void ParallelStencil(const double* macierzIn, double* macierzOut, const int m, const int n)
{
int m_real = m + 2;
int n_real = n + 2;
TimeCPU t;
t.start();
#pragma omp parallel for schedule(static,1) shared(macierzIn, macierzOut)
for(int i=1; i<m_real-1; ++i)
{
for(int j=1; j<n-1; ++j)
{
macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);
}
}
t.stop();
cout << "nTime: " << t.time();
}
第二:我把矩阵分成61个核心。矩阵的每个部分由每个核心运行的4个HW线程计算。在这个版本中,我试图通过对同一个二级缓存周围的4个线程进行计算来减少缓存未命中。
void ParallelStencil(const double* macierzIn, double* macierzOut, int m, int n)
{
int m_real = m + 2;
int n_real = m + 2;
int coreCount = threadsCount / 4;
int tID, coreNum, start, stop, step;
TimeCPU t;
t.start();
#pragma omp parallel shared(macierzIn, macierzOut, m, n, m_real, n_real, coreCount) private(tID, coreNum, start, stop, step)
{
tID = omp_get_thread_num();
coreNum = tID / 4;
start = tID % 4 + ((m / coreCount) * coreNum) + 1;
stop = (m / coreCount) * (coreNum + 1) + 1;
if(coreNum == coreCount - 1 && stop != m_real - 1)
{
stop = m_real -1;
}
step = 4;
for(int i=start; i<stop; i+=step)
{
for(int j=1; j<n+1; ++j)
{
macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);
}
}
}
t.stop();
cout << "nTime: " << t.time();
}
在这个wersion循环中,矩阵每个部分的迭代都是这样执行的:
i=0->线程0
i=1->线程1
i=2->线程2
i=3->线程3
i=4->线程0
…
运行此代码之后。第二个版本比较慢。但为什么呢?
这可能更像是一个注释,而不是一个答案。在深入研究高效缓存利用率的问题之前,您应该修复这两个代码,使它们等效。目前还没有。
差异#1
第一个代码:
int m_real = m + 2;
int n_real = n + 2;
第二个代码:
int m_real = m + 2;
int n_real = m + 2; // <---- m instead of n
差异#2
第一个代码:
for(int j=1; j<n-1; ++j)
第二个代码:
for(int j=1; j<n+1; ++j) // <---- n+1 instead of n-1
如果你的矩阵恰好不是平方和m > n
,那么第二个代码肯定会更慢,因为它必须计算更多。
相关文章:
- 为什么"do while"循环不断退出,即使条件计算结果为 false?
- 递归函数计算序列中的平方和(并输出过程)
- (C++)分析树以计算返回错误值的简单算术表达式
- 我的字符计数代码计算错误.为什么
- 在计算中使用二的幂有多有利可图
- 如何计算文件中的"columns"数?
- 计算排序向量的向量中唯一值的计数
- 如何使用 std::累积在 C++ 中计算总和立方体
- 使用Qt C++计算类似Git的SHA1哈希
- OpenCV C++.快速计算混淆矩阵
- cpp二进制搜索问题,计算给定数组中输入元素的出现次数
- C++如何计算用户输入的数字中的偶数位数
- 如何计算数据类型的范围,例如int
- 类似枚举的计算常量
- 计算每个节点的树高,帮助我解释这个代码解决方案
- 多个If语句与使用逻辑运算符计算条件的单个语句的比较
- 计算缩放多边形的比例,得到给定的多边形面积
- 在C++中如何在没有pow的情况下进行基础计算
- 计算平均值,不包括上次得分
- 英特尔MIC模版计算