指向 CUDA 中共享内存的本地指针
Local pointer to shared memory in CUDA
如何使线程块中的每个线程都有自己的指向共享内存的指针?我找到了一些声明此类指针的示例:
int __shared__ *p;
__shared__ int array[256];
p = &array[threadId];
这是对的还是有其他方法?
不,这不是正确的方法。在该示例代码中,p
是共享的,因此这意味着块中的每个线程都将尝试访问同一块内存。如果threadId
是带有块的唯一线程索引,您可以这样做:
int *p;
__shared__ int array[256];
p = &array[threadId];
在这种情况下,编译器将使用寄存器或线程本地内存将元素的唯一地址存储在块中每个线程的静态共享内存分配array
中。
你是对的。更好的方法是动态分配共享内存。一个例子是研究员:
void __global__ test(){
extern __shared__ int s[];
int *p = &s[xx];
}
...
test<<<x,y, shared memory length>>>();
...