关于 CUDA 的架构(SM、SP)

About CUDA's architecture (SM, SP)

本文关键字:SM SP CUDA 关于      更新时间:2023-10-16

我是一个刚刚开始 CUDA 编程的人。
似乎有一个SP SM和CUDA架构的概念。
我尝试运行 deviceQuery.cpp 示例源我认为什么有效,并且 SP SM 开发他们的环境,
已经不知道哪些项目SP是否是SM中的任何项目。

我认为项目"(14) 多处理器,(8) CUDA 内核/MP",这对 SP 和 SM 是正确的,但我会正确理解以下内容吗?

SM = 多处理器 = 14
SP = CUDA 核心/MP = 8
CUDA 核心 = 14 * 8 = 112

顺便说一下,deviceQuery.cpp的结果如下。

CUDA 设备查询(运行时 API)版本(CUDART 静态链接)

检测到 1 个支持 CUDA 的设备

设备 0:"GeForce GTS 240
CUDA 驱动程序版本/运行时版本 5.5/5.5
CUDA 功能主要/次要版本号:1.1
全局内存总量:1024 MB(1073741824 字节)
(14) 多处理器, ( 8) CUDA 内核/MP: 112 CUDA 内核
GPU 时钟速率:1620 兆赫 (1.62 GHz)
内存时钟速率:1100 MHz
内存总线宽度:256 位
最大纹理尺寸 (x,y,z) 1D=(8192), 2D=(65536, 32768), 3
D=(2048, 2048, 2048)
最大分层 1D 纹理大小,(数)层 1D=(8192),512 层
最大分层 2D 纹理大小,(数)层数 2D=(8192, 8192),512 层
常量内存总量:65536 字节
每个块的共享内存总量:16384 字节
每个块可用的寄存器总数:8192
经纱尺寸:32
每个多处理器的最大线程数:768
每个块的最大线程数:512
线程块的最大尺寸大小 (x,y,z): (512, 512, 64)
网格大小 (x,y,z) 的最大尺寸大小:(65535, 65535, 1)
最大内存间距:2147483647 字节
纹理对齐:256 字节
并发复制和内核执行:是,带 1 个复制引擎
内核的运行时间限制:是
集成 GPU 共享主机内存:否
支持主机页面锁定内存映射:是
曲面的对齐要求:是
设备具有 ECC 支持:已禁用
设备支持统一寻址 (UVA):否
设备 PCI 总线 ID/PCI 位置 ID: 9/0
计算模式:
<默认(多个主机线程可以使用>啧)
>

根据这一点,您是正确的:

SM = 流多处理器

SP = 流处理器 = CUDA 核心

总 SP/CUDA 核心数 = SM 数 * 每个 SM 的 SP/CUDA 核心数