关于 CUDA 的架构(SM、SP)

About CUDA's architecture (SM, SP)

本文关键字：SM SP CUDA 关于更新时间：2023-10-16

我是一个刚刚开始 CUDA 编程的人。
似乎有一个SP SM和CUDA架构的概念。
我尝试运行 deviceQuery.cpp 示例源我认为什么有效，并且 SP SM 开发他们的环境，
已经不知道哪些项目SP是否是SM中的任何项目。

我认为项目"（14）多处理器，（8） CUDA 内核/MP"，这对 SP 和 SM 是正确的，但我会正确理解以下内容吗？

SM = 多处理器 = 14
SP = CUDA 核心/MP = 8
CUDA 核心 = 14 * 8 = 112

顺便说一下，deviceQuery.cpp的结果如下。

CUDA 设备查询（运行时 API）版本（CUDART 静态链接）

检测到 1 个支持 CUDA 的设备

设备 0："GeForce GTS 240
CUDA 驱动程序版本/运行时版本 5.5/5.5
CUDA 功能主要/次要版本号：1.1
全局内存总量：1024 MB（1073741824 字节）
（14）多处理器，（ 8） CUDA 内核/MP： 112 CUDA 内核
GPU 时钟速率：1620 兆赫（1.62 GHz）
内存时钟速率：1100 MHz
内存总线宽度：256 位
最大纹理尺寸（x，y，z） 1D=（8192）， 2D=（65536， 32768）， 3
D=（2048， 2048， 2048）
最大分层 1D 纹理大小，（数）层 1D=（8192），512 层
最大分层 2D 纹理大小，（数）层数 2D=（8192， 8192），512 层
常量内存总量：65536 字节
每个块的共享内存总量：16384 字节
每个块可用的寄存器总数：8192
经纱尺寸：32
每个多处理器的最大线程数：768
每个块的最大线程数：512
线程块的最大尺寸大小（x，y，z）：（512， 512， 64）
网格大小（x，y，z）的最大尺寸大小：（65535， 65535， 1）
最大内存间距：2147483647 字节
纹理对齐：256 字节
并发复制和内核执行：是，带 1 个复制引擎
内核的运行时间限制：是
集成 GPU 共享主机内存：否
支持主机页面锁定内存映射：是
曲面的对齐要求：是
设备具有 ECC 支持：已禁用
设备支持统一寻址（UVA）：否
设备 PCI 总线 ID/PCI 位置 ID： 9/0
计算模式：
<默认（多个主机线程可以使用>啧）
>

根据这一点，您是正确的：

SM = 流多处理器

SP = 流处理器 = CUDA 核心

总 SP/CUDA 核心数 = SM 数 * 每个 SM 的 SP/CUDA 核心数