使用openmp和分段故障并行K最近邻
parallel K nearest neighbor using openmp and segmentation fault
我正在尝试对"dat"中的数据点进行k近邻(KNN),所以我的第一步是在每个点和所有其他点之间构造一个距离矩阵,然后为每个点找到k近邻。以下代码在没有openmp的情况下可以完美地串行工作。然而,当我使用openmp时,它会出现分段错误。我认为这个错误与我如何更新包含k个最小元素索引的最小元素有关。我想我可能需要使用向量最小的"归约",但我不确定如何使用它,或者它是对的还是错的,所以任何关于如何克服这个分割错误的帮助都是非常感激的。
vector<vector<double> > dist(dat.size(), vector<double>(dat.size()));
size_t p,j;
ptrdiff_t i;
vector<double> sumKnn;
vector<vector<int > > smallest(dat.size(), vector<int>(k));
#pragma omp parallel for private(p,j,i) default(shared)
for(p=0;p<dat.size();++p)
{
int mycont=0;
for (j = p+1; j < dat.size(); ++j)
{
double ecl = 0.0;
for (i = 0; i < c; ++i)
{
ecl += (dat[p][i] - dat[j][i]) * (dat[p][i] - dat[j][i]);
}
ecl = sqrt(ecl);
dist[p][j] = ecl;
dist[j][p] = ecl;
int index=0;
if(mycont<k && j!=p)
{
smallest[p][j-p-1]=j;
mycont++;
}
else
{
double max=0.0;
int index=0;
for(int i=0;i<smallest[p].size();i++)
{
if(max < dist[p][smallest[p][i]])
{
index=i;
max=dist[p][smallest[p][i]];
}
}
if(max>dist[p][j])
{
smallest[p].erase(smallest[p].begin()+index);
smallest[p].push_back(j);
}
}
}
double sum=0.0;
for(int r=0;r<k;r++)
sum+= dist[p][smallest[p][r]];
sumKnn.push_back(sum);
}
您可以使用"关键"指令:
#pragma omp critical
{
smallest[p].erase(smallest[p].begin()+index);
smallest[p].push_back(j);
}
和
#pragma omp critical
sumKnn.push_back(sum);
但我同意,最好使用kd树或k-means树来代替并行化。您只需下载FLANN库http://www.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN.
因此,我同意@izmorphilus的观点,即与使用更快的基于树的算法相比,并行化该算法(计算所有距离)可能不会加速,尤其是对于大量点。
尽管如此,你还是可以很容易地做到这一点。问题是不能让多个线程同时对共享向量执行push_back()和erase()之类的操作。坦率地说,矢量看起来无论如何都是错误的方法;既然你知道这些东西的大小,那么只使用数组可能是最好的选择。
无论如何,通过手动在最小的[][]数组中移动东西,而不是使用擦除和推回,以及通过只为sumKnn写入静态数组而不是使用push_back(),这都可以实现。
#include <cmath>
#include <cstdlib>
#include <vector>
using namespace std;
int main(int argc, char **argv) {
const int size = 25; // number of pts
const int k = 2; // number of neighbours
const int c = 2; // number of dimensions
vector<vector<double> > dat(size, vector<double>(c));
for (int i=0; i<size; i++) {
vector<double> pt(c);
for (int d=0; d<c; d++) {
pt.push_back(rand()*1./RAND_MAX);
}
dat.push_back(pt);
}
vector<vector<double> > dist(size, vector<double>(size));
double sumKnn[size];
vector<vector<int > > smallest(size, vector<int>(k));
#pragma omp parallel for default(none) shared(dat, dist, smallest, sumKnn)
for(size_t p=0;p<size;++p)
{
int mycont=0;
for (size_t j = p+1; j < size; ++j)
{
double ecl = 0.0;
for (ptrdiff_t i = 0; i < c; ++i)
{
ecl += (dat[p][i] - dat[j][i]) * (dat[p][i] - dat[j][i]);
}
ecl = sqrt(ecl);
dist[p][j] = ecl;
dist[j][p] = ecl;
int index=0;
if(mycont<k && j!=p)
{
smallest[p][j-p-1]=j;
mycont++;
}
else
{
double max=0.0;
int index=0;
for(int i=0;i<k;i++)
{
if(max < dist[p][smallest[p][i]])
{
index=i;
max=dist[p][smallest[p][i]];
}
}
if(max>dist[p][j])
{
for (int ii=index; ii<k-1; ii++)
smallest[p][ii] = smallest[p][ii+1];
smallest[p][k-1] = j;
}
}
}
double sum=0.0;
for(int r=0;r<k;r++)
sum+= dist[p][smallest[p][r]];
sumKnn[p] = sum;
}
return 0;
}
相关文章:
- 查找最近配对时的OpenMP竞赛条件
- 如何获取pcl迭代最近点(ICP)的迭代点数?
- 如何使用 OpenMP 并行化最近邻搜索
- 如何找到给定点的最近平方
- 将前向声明的结构替换为最近定义的结构
- CMakeList 中应包含哪些模块.txt以进行近似最近邻搜索?
- 应该如何编写用于计算最近点距离的C++函数?
- 最近的邻居用nanoflann搜索
- GCC:--静态链接到pthread的整个存档配方在最近的GCC版本中停止工作
- 向下四舍五入到五个c++的最近倍数
- 在 3D 点云、GPU 中查找最近的邻居
- 我最近更改了编译器路径以运行 c++ 代码,但现在我无法运行任何 python 代码。我该如何解决这个问题?
- 在RHEL6上使用最近的gcc进行编译:如何分发软件?
- 最近最少使用的 (LRU) 缓存
- 我最近正在阅读opencv源代码。有没有更好的方法来在opencv库中查找类定义?
- c++ Valgrind:地址0x0不是堆叠的、恶意的或(最近)释放的
- 如何在无限轴上找到 N 个点,以便从 M 点到其最近的 N 的距离总和最小
- 地址0x20ec8348e5894855不是堆叠的、恶意的或(最近)释放的
- 在 OpenCV 和 C++ 中查找距轮廓中心最近的黑色像素
- 'new'关键字如何工作?我最近才知道新关键字