音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "PTX"

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 06 Kernels, Triton

2025-05-13 17:44

该讲座聚焦于为语言模型编写高性能GPU代码。内容首先回顾GPU基础架构，包括流式多处理器（SM）、线程、内存层级（DRAM、缓存、寄存器文件）、线程块和线程束（warps），并强调了算术强度的重要性。讲座重点阐述了基准测试和性能分析在识别与解决代码瓶颈方面的核心作用，主张在优化前进行充分的分析。演讲者计划演示使用CUDA（C++）、Triton以及PyTorch的即时编译器（JIT）编写内核，并对比它们的性能，同时深入分析底层的PTX代码，最终可能实现一个快速的softmax函数。此外，讲座提及了课程作业，特别是与GPU内核和并行计算相关的第二项作业，并将使用一个简单的多层感知机（MLP）模型作为示例进行演示。

GPU编程语言模型高性能计算 Triton CUDA PyTorch 性能优化性能分析核函数融合 PTX GPU架构深度学习

已摘要阅读时间：7 分钟（2174 个字） 1 summary version