编写一个CUDA内核来替换一个等效的cpu函数
Writing a CUDA kernel to replace an equivalent CPU-only function
我有一些.cpp
文件实现了平滑粒子流体动力学,这是一种模拟流体流动的粒子方法。
这些粒子技术中最耗时的组件之一是在模拟的每个时间步为每个粒子找到最近的邻居(k近邻或范围搜索)。
现在我只想使用GPU和CUDA加速邻居搜索例程,取代我目前基于CPU的邻居搜索例程。只有邻居搜索将在GPU上运行,而其余的模拟将在CPU上进行。
我的问题是,我应该如何去编译整个代码?更具体地说,假设我在文件nsearch.cu
中编写邻居搜索内核函数。
那么我应该重命名所有我以前的.cpp
文件作为.cu
文件和重新编译整个集合(连同nsearch.cu)使用nvcc
?至少对于简单的例子,nvcc 不能编译扩展.cpp
的CUDA代码,即nvcc foo.cu
编译但nvcc hello.cpp
不编译。
简而言之,这个CUDA插件的结构应该是什么,我应该如何去编译它?
我使用Ubuntu Linux 10.10, CUDA 4.0, NVIDIA GTX 570 (Compute capability 2.0)和gcc编译器用于我的工作
您需要编写nsearch。使用"nvcc -c -o nsearch"编译它。O",然后链接搜索。O带主应用。必须有一个search.h文件,导出实际内核周围的包装器。
in nsearch.h :
void kern();
in nsearch.cu:
void __global__ kern__() {
}
void kern() {
kern__<<<...>>>();
}
这是对你的问题的更广泛的回应,因为我已经经历了一个非常相似的思维过程-将我的流体动力代码移动到GPU上,同时将其他一切都留在CPU上。虽然我认为这是你应该开始的地方,但我也认为你应该开始计划将所有其他代码也转移到GPU上。我发现,虽然GPU非常擅长进行模拟所需的矩阵分解,但GPU和CPU内存之间的内存边界非常慢,以至于大约80-90%的GPU模拟时间都花在cudaMemcpyDeviceToHost/cudaMemcpyHostToDevice上。
- 创建一个函数以在输入为负数或零时输出字符串.第一次执行用户定义的函数
- 如何仅为一个函数添加延迟
- 有没有什么方法可以使用一个函数中定义的常量变量,也可以由c++中同一程序中的其他函数使用
- 我需要将多个函数组合为一个函数
- 在C++中声明一个函数时,它需要有函数本身的参数吗
- 如何创建一个函数来计算并返回平均值、最大值和最小值
- 一个函数,用于查找字符串1包含字符串2 c++的次数
- 如何将一个类的函数作为另一个类的另一个函数的参数传递
- 编写一个函数以使用 n 百分比的 CPU 使用率
- 将 N-arg 函数包装到另一个函数中
- 如何封装一个函数,以便它只能由同一类中的一个其他函数调用?
- C++(.cpp文件和.h文件)拆分代码并添加一个函数,提取 - 这很容易吗?
- C++从另一个函数退出函数
- 编写一个函数来删除单链表中的节点(尾部除外),仅授予对该节点的访问权限
- 视觉我希望一个函数在另一个函数C++中进行计算
- C ++如何在原始抽象类中创建一个函数,该函数接受派生类的输入
- 在另一个函数 (c++) 中调用变量
- 如何在另一个函数中使用返回值作为参数?
- 如何包装一个函数以适应另一个函数的所需类型
- 创建一个函数的 Python 绑定,返回指向带有 boost 的向量的指针