矩阵矩形部分转置Cuda
Matrix the Rectangle Part transpose Cuda
im编写Cuda程序来转换平方矩阵,其想法是根据矩阵的大小分为两部分;矩阵大小用Tile切割成均匀大小,并保留矩形部分左侧i将其单独转置Ex:67 x 67矩阵用Tile:32,第一部分是64x64转置的,然后第二部分是3x67。
我的问题是矩形部分,下面的第一个代码显示了具有定义值的主代码:
const int TILE_DIM = 32;
const int BLOCK_ROWS = 8;
const int NUM_REPS = 100;
const int Nx = 2024; //size of the matrix
const int Ny = 2024;
int main(int argc, char **argv)
{
const int nx = Nx;
const int ny = Ny; // Size of the Arrays
const int mem_size = nx*ny*sizeof(int);// Size of the Orig.Arr
int *h_idata = (int*)malloc(mem_size); // original Host Arr.
int *d_idata; //device Arr.
checkCuda(cudaMalloc(&d_idata, mem_size));
dim3 dimGridX(nx / TILE_DIM, 1, 1); //grid dimension used
dim3 dimBlockX(TILE_DIM, 1, 1); // number of threads used
// the Kernel Function for only the rectangle
EdgeTransposeX << < dimGrid, dimBlock >> >(d_idata);
cudaEventRecord(startEvent, 0);
cudaEventRecord(stopEvent, 0);
cudaEventSynchronize(stopEvent);
cudaEventElapsedTime(&ms, startEvent, stopEvent);
cudaMemcpy(h_idata, d_idata, mem_size, cudaMemcpyDeviceToHost);
内核代码我被建议不要使用共享,所以下面是我的做法:
__global__ void EdgeTransposeX(int *idata)
{
int tile_C[Edge][Nx];
int tile_V[Nx][Edge];
int x = blockIdx.x * TILE_DIM + threadIdx.x;
if (x == (nEven - 1))
{
for (int j = 0; j < Nx; j++)
for (int i = 1; i <= Edge; i++)
{
tile_V[j][i - 1] = idata[j*Nx + (x + i)];
tile_C[i - 1][j] = idata[(x + i)*Nx + j];}
__syncthreads();
for (int j = 0; j < Nx; j++)
for (int i = 1; i <= Edge; i++)
{
idata[j*Nx + (x + i)] = tile_C[i - 1][j];
idata[(x + i)*Nx + j] = tile_V[j][i - 1];}
} }
代码工作正常,直到矩阵大小达到1025,之后它就停止工作了,知道为什么吗?我是不是遗漏了什么?
二维数组tile_C和tile_V实际存储在GPU的本地内存中。每个线程的本地内存量为512KB。请验证每个线程使用的本地内存是否不超过512KB。
设备代码中声明的一个自动变量,没有任何设备,本节中描述的共享和常量限定符通常驻留在寄存器中。然而,在某些情况下,编译器可能会选择将其放置在本地内存中。该片段摘自《CUDA C编程指南2015》第89页。
我的建议是使用可视化探查器来检查占用率、注册和本地内存使用情况。
此链接可能对您有所帮助:链接。
我在2D中使用cuda曲面实现了方形矩阵的Transpose,它适用于从2到16384的大小,增量为2的幂。如果你不介意实现无平铺版本,我建议你采用这种方法。
相关文章:
- 转置矩阵:交换元素不会更改值
- 使用 Eigen 3 库编写一个带有转置作为参数的函数
- 犰狳(C++)中的快速阵列置换(广义张量转置)
- 为什么转置这个 std::vector<std::vector<std::string> > 这么慢?
- 转置结构容器
- 我的转置矩阵代码有什么问题?
- 数组的转置和乘法
- 在C++中使用矢量转置 2D 矩阵
- 特征:块转置
- 如何使用共享内存在CUDA中转置巨大的任意矩阵
- MKL矩形矩阵Inplace转置:不使用多个核心
- 并行转置不同的矩阵
- 关于次级对角线的转置(翻转)矩阵
- 输出是从您输入的矩阵中打印出矩阵的转置,但我的代码只是打印出您输入的第一个矩阵
- 如何在阵列火中避免翻转和转置的memcpy?
- CUDA矩阵与共享内存转置
- C 阵列的复合物共轭转置
- 在CUDA中具有共享MEM的非方面矩阵转置
- 矩阵矩形部分转置Cuda
- 使用 CUDA 转置:在博客中查询程序