StreamSparkAI

Summary Notes

音频媒体文件

清除
标签搜索结果 for "Triton"
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 06 Kernels, Triton
2025-05-13 17:44

该讲座聚焦于为语言模型编写高性能GPU代码。内容首先回顾GPU基础架构,包括流式多处理器(SM)、线程、内存层级(DRAM、缓存、寄存器文件)、线程块和线程束(warps),并强调了算术强度的重要性。讲座重点阐述了基准测试和性能分析在识别与解决代码瓶颈方面的核心作用,主张在优化前进行充分的分析。演讲者计划演示使用CUDA(C++)、Triton以及PyTorch的即时编译器(JIT)编写内核,并对比它们的性能,同时深入分析底层的PTX代码,最终可能实现一个快速的softmax函数。此外,讲座提及了课程作业,特别是与GPU内核和并行计算相关的第二项作业,并将使用一个简单的多层感知机(MLP)模型作为示例进行演示。

GPU编程 语言模型 高性能计算 Triton CUDA PyTorch 性能优化 性能分析 核函数融合 PTX GPU架构 深度学习
已摘要 阅读时间:7 分钟(2174 个字) 1 summary version

© 2026 StreamSparkAI. 保留所有权利。 沪ICP备18047501号-2