如何使用线栅栏/ CUDA5.5

How to use threadfence / CUDA5.5

本文关键字：CUDA5 何使用更新时间：2023-10-16

所以，我想知道如何使用Threadfence，我想阅读有关threadfence的示例代码。

请给我看关于 threadfence（）的示例代码

我相信当我想访问内存是CUDA5.5中设备端的内核功能时，我想执行独占控制。
我了解到，如果我使用所谓的"（）__threadfence"，排他性控制是可能的，我不知道如果我使用方式。

·我可以做什么？
（现在，"__threadfence（）"发生未定义的错误标识）
·我在哪里编写源代码上的代码。因为我想在下面的代码中专门控制您要访问Log_d的位置。

其他线程我想阻止访问关于内存的Log_d之间的"锁定开始"~"锁定停止"以下代码，例如。

我在 CPU 端代码中定义了块和线程。块

： 1，1，1 和线程： 256，1，1

__global__ void matrix_vector_multi_gpu_1_256(float *A_d, float *B_d, float *C_d, float *Log_d){
    int i;
    A_d[threadIdx.x]=0.0F;
    for(i=0;i<N;i++){
        A_d[threadIdx.x]=A_d[threadIdx.x]+B_d[threadIdx.x*N+i]*C_d[i];
    }
    //lock Start about Log_d
    //__threadfence();
    for(int j=0;j<N;j++){
        if(Log_d[j]==0){
            Log_d[j]=threadIdx.x + 1;
            break;
        }
    }
    //Stop the lock

}

如果您能提供有关matrix_vector_multi_gpu_1_256内核函数应该做什么的更多信息，那就太好了。

通过 __threadfence() ，设备将等待，直到调用线程进行的所有全局和共享访问都对以下人员可见：

块中的所有线程用于共享内存访问;
设备中的所有线程，用于全局内存访问。

在 CUDA SDK 的threadFenceReduction中提供了使用__threadfence()的示例。

在该示例中，在单个内核调用中对任意大小的数组执行缩减。线程块执行部分缩减，内核通过全局计数器的原子增量跟踪已完成的块数。如果票证值等于线程块的数量，则持有票证的块知道它是最后一个完成的块。最后一个块负责对所有其他块的结果求和。

为了使这种方法正常工作，必须确保在块接受票证之前，其所有内存事务都已完成。这是通过__threadfence() .

如何使用线栅栏/ CUDA5.5

How to use threadfence / CUDA5.5

请给我看关于 threadfence（） 的示例代码

请给我看关于 threadfence（）的示例代码