用内核参数在CUDA内核中声明数组
Declaring arrays in CUDA kernel with kernel parameters
我在C /CUDA中编程,并且遇到了问题:
__global__ void KERNEL(int max_size, double* x, double* y, double* z)
{
double localArray_x[max_size]
double localArray_y[max_size]
double localArray_z[max_size]
//do stuff here
}
现在,我唯一的解决方案就是这样预定的max_size:
#define max_size 20
这些阵列是我内核工作的主要重点。基本上,我具有全局坐标,并且仅根据模拟框中的位置将这些坐标的段添加到三个local_arrays中。然后在这些坐标上完成工作,最后将这些坐标添加回模拟末尾的全局数组(x,y,z)。因此,在数组上有某些限制:
- 每个称为Max_size*3个数组元素要操纵。
- 这些数组被广泛使用,因此内核需要能够快速(或本地)访问它们。
- max_size不能成为常数,因为我的坐标的数量密度是基于主机的输入而变化的。
我知道这篇文章在stackoverflow上有一些版本,但我相信我需要的是与简单的共享内存声明不同。我只是在寻找有关可以做什么以及这些选项中最快的指导。
如果相关,则每个模拟中的max_size将相同(常数)。换句话说,它仅从一个模拟变为另一个模拟,而从不在同一模拟中变化。
这比我想象的要简单。使用新的和删除来实现这一目标,就像您在主机上执行的方式一样。
唯一的区别是需要使用运行时API调用,该调用为您的目的分配内存:
cudaDeviceSetLimit(cudaLimitMallocHeapSize, heapsize);
,在运行n个内核的系统中堆积3个int阵列尺寸n_size每个:
size_t heapsize = (size_t)( N*3*N_SIZE*sizeof(int) );
相关文章:
- .cpp和.h文件中的模板专用化声明
- 未在作用域中声明unordered_map
- C++避免重复声明的语法是什么
- 如何确保C++函数在定义之前声明(如override关键字)
- 错误:未在此范围内声明'reverse'
- 奇怪的(对我来说)返回声明 - 在谷歌上找不到任何关于它的信息
- 为什么在定义函数之前先声明它
- 如何声明特征矩阵,然后通过嵌套循环初始化它
- #ifdef和未声明的标识符
- 没有显式声明的int[]中的foreach
- 在基于范围的for循环中使用结构化绑定声明
- 在将变量声明为引用时,堆在释放后使用
- C++:无法访问声明的受保护成员
- 为什么我不能在一个类的不同行中声明和定义成员变量?
- 我不明白为什么我声明一个空的内部结构并将其传递给构造函数
- 使用cmake从源代码构建MySQL连接器/C++失败(与以前的声明冲突)
- 在函数内部的声明中初始化数组,并在外部使用它
- 用内核参数在CUDA内核中声明数组
- 在 cuda 内核中声明 CPP 对象
- 如何在Cudafy GPU内核中声明固定大小的数组