CUTLASS 是个专门给 NVIDIA 的 CUDA 平台用的工具库,主要是帮你在 GPU 上搞定高效矩阵乘法(GEMM)和其他相关计算。CUDA 是干 GPU 并行计算的,而 CUTLASS 就用模板化的 C++ 代码,让矩阵运算既灵活又跑得快。它把复杂的矩阵乘法拆成一堆小模块,每个模块管一个计算步骤,这些小块还能随便拼凑、调优。比如,你可以根据硬件或需求,改改数据怎么放、算多大块儿,效率就能蹭蹭往上涨。就像搭机器,你挑不同零件组合,还能按需定制零件。CUTLASS 牛在它不仅能搞定标准的矩阵乘法,还能让你开发更特别的高性能计算东西。总之,它就是 CUDA 的矩阵计算神器,模块化又灵活,复杂运算变简单了!
CUTLASS 2.x 与 3.x 的入门使用
时长40:56
NVIDIA英伟达 发布于 2024-07-19 18:03
CUTLASS GEMM模板中有大量可以调节和设置的模板参数,这些参数的设置会高度影响Kernel性能。本次分享将为大家介绍从2.x到3.x,CUTLASS kernel实现的变化,这些参数的原理和选择的最佳实践。 ...

CUTLASS GEMM模板中有大量可以调节和设置的模板参数,这些参数的设置会高度影响Kernel性能。本次分享将为大家介绍从2.x到3.x,CUTLASS kernel实现的变化,这些参数的原理和选择的最佳实践。 ...
半小时快速入门CUTLASS-基于 CUDA 的多层次稠密线性代数计算原语
时长43:31
大风起兮x 发布于 2023-06-16 16:41
https://cdnapi-ev.kaltura.com/p/2935771/sp/293577100/playManifest/entryId/1_f4ooowud/format/applehttp/protocol/https/session.m3u8?uiConfId=46302491 因为近期科研需求需要使用到 cutlass,找了一些资源来进行学习。感觉看了之后确实有一点点收货,但是距离使用 cutlass 还有不远距离,还是得上手才行。视频对应的 ppt 在以下链接转载链接中https:// ...

https://cdnapi-ev.kaltura.com/p/2935771/sp/293577100/playManifest/entryId/1_f4ooowud/format/applehttp/protocol/https/session.m3u8?uiConfId=46302491 因为近期科研需求需要使用到 cutlass,找了一些资源来进行学习。感觉看了之后确实有一点点收货,但是距离使用 cutlass 还有不远距离,还是得上手才行。视频对应的 ppt 在以下链接转载链接中https:// ...
使用 CUTLASS 融合多个 GEMM 实现非凡性能 Use CUTLASS to Fuse Multiple GEMMs to Extreme Perfor
时长32:43
runningteeth 发布于 2023-03-26 13:00
https://www.nvidia.com/en-us/on-demand/session/gtcspring22-s41606/ CUTLASS is a high-performance general matrix multiplication (GEMM) and convolution implementation framework open-sourced by NVIDIA. Users can quickly reuse and modify high-performance impl ...

https://www.nvidia.com/en-us/on-demand/session/gtcspring22-s41606/ CUTLASS is a high-performance general matrix multiplication (GEMM) and convolution implementation framework open-sourced by NVIDIA. Users can quickly reuse and modify high-performance impl ...
CUTLASS 极致性能优化探索及在阿里巴巴推荐系统中的应用 [SE51305]
时长21:7
runningteeth 发布于 2023-03-26 13:03
https://register.nvidia.com/flow/nvidia/gtcspring2023/attendeeportal/page/sessioncatalog/session/1666343524355001XrO5 在大规模推荐系统中,点击率 (Click-Through Rate, CTR) 和点击率 (ConVersion Rate, CVR) 预测任务的深度神经网络模型通过由 Embedding 层,Attention 层和 MLP 层组成。然而,在 TensorFlow 上执行 ...

https://register.nvidia.com/flow/nvidia/gtcspring2023/attendeeportal/page/sessioncatalog/session/1666343524355001XrO5 在大规模推荐系统中,点击率 (Click-Through Rate, CTR) 和点击率 (ConVersion Rate, CVR) 预测任务的深度神经网络模型通过由 Embedding 层,Attention 层和 MLP 层组成。然而,在 TensorFlow 上执行 ...
TensorRT-LLM 中的 Hopper Mixed GEMM 的 CUTLASS 3.x 实现讲解
时长49:44
NVIDIA英伟达 发布于 2024-07-19 18:04
本次演讲将介绍如何使用CUTLASS 3.x风格的代码在Hopper架构上实现输入为FPA+INTB混合精度矩阵乘法,内容包括:1.使用CuTe进行数据传输。2. FPA+INTB矩阵乘法案例讲解。 ...

本次演讲将介绍如何使用CUTLASS 3.x风格的代码在Hopper架构上实现输入为FPA+INTB混合精度矩阵乘法,内容包括:1.使用CuTe进行数据传输。2. FPA+INTB矩阵乘法案例讲解。 ...
CUTLASS: Python API, Enhancements, and NVIDIA Hopper
时长41:14
fishlegsky 发布于 2023-04-14 19:00
https://www.nvidia.cn/on-demand/session/gtcfall22-a41131/ ...

https://www.nvidia.cn/on-demand/session/gtcfall22-a41131/ ...
英伟达开发者社区免费课程
时长1254:43
双倍芝士dbcs 发布于 2020-03-03 22:13
https://www.nvidia.cn/developer/online-training/dli-community-training/ 社区视频不方便观看,b站貌似也没有转载就自己投了合集自用,侵删。有些课程的ppt可以在官网下载。以下是官网的简介: 英伟达开发者社区免费课程主要提供 NVIDIA GPU 编程相关的学习素材,包括课程简要,课程视频,及课程所需 PPT。按照以下课程学习,您将了解到相关算力增强的专业知识,包括:CUDA 编程的基础知识以及 AI 计算加速的工具使用。 ...

https://www.nvidia.cn/developer/online-training/dli-community-training/ 社区视频不方便观看,b站貌似也没有转载就自己投了合集自用,侵删。有些课程的ppt可以在官网下载。以下是官网的简介: 英伟达开发者社区免费课程主要提供 NVIDIA GPU 编程相关的学习素材,包括课程简要,课程视频,及课程所需 PPT。按照以下课程学习,您将了解到相关算力增强的专业知识,包括:CUDA 编程的基础知识以及 AI 计算加速的工具使用。 ...
[cutlass 3.0] cute swizzle中的一些细节
时长10:25
爱学习的阿噜 发布于 21:09
...

...
.github
cmake
docs
examples
include
media
python
test
tools
点赞
回复