音频媒体文件

清除
标签搜索结果 for "性能优化"
Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87
2025-05-16 20:59

本次讲座是斯坦福MLSys研讨会第87期,主讲人Tri Dao讨论了面向序列建模的硬件感知算法。讲座分为两部分:第一部分关注改进Transformer中的自注意力机制,指出其在处理长序列时存在时间和内存复杂度呈平方增长的问题。通过IO感知算法(如FlashAttention),可以显著提高注意力计算的速度和内存效率,从而支持更长的上下文并提升模型质量。同时介绍了长上下文大型语言模型推理的优化方法。第二部分探讨了二次以下时间复杂度的模型架构,如循环神经网络(RNN)、门控卷积和结构化状态空间模型(SSM)。讲座指出这些模型的关键弱点在于缺乏基于内容的推理能力,并提出了选择机制来解决此问题。尽管这会影响卷积效率,但设计了硬件感知的并行算法。将这些选择性SSM集成到简化架构Mamba中,该模型在语言建模任务上达到或超过了现代Transformer的性能,并具有更快的推理速度和更长的上下文处理能力。

MLSys 硬件感知算法 序列建模 GPU内存 FlashAttention 注意力机制 Mamba模型 状态空间模型 长上下文 LLM推理 性能优化
已摘要 阅读时间:11 分钟(3649 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 06 Kernels, Triton
2025-05-13 17:44

该讲座聚焦于为语言模型编写高性能GPU代码。内容首先回顾GPU基础架构,包括流式多处理器(SM)、线程、内存层级(DRAM、缓存、寄存器文件)、线程块和线程束(warps),并强调了算术强度的重要性。讲座重点阐述了基准测试和性能分析在识别与解决代码瓶颈方面的核心作用,主张在优化前进行充分的分析。演讲者计划演示使用CUDA(C++)、Triton以及PyTorch的即时编译器(JIT)编写内核,并对比它们的性能,同时深入分析底层的PTX代码,最终可能实现一个快速的softmax函数。此外,讲座提及了课程作业,特别是与GPU内核和并行计算相关的第二项作业,并将使用一个简单的多层感知机(MLP)模型作为示例进行演示。

GPU编程 语言模型 高性能计算 Triton CUDA PyTorch 性能优化 性能分析 核函数融合 PTX GPU架构 深度学习
已摘要 阅读时间:7 分钟(2174 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 05 GPUs
2025-05-13 16:31

演讲者首先介绍了课程作业的安排,并点明本次讲座的核心内容是图形处理器(GPU)。GPU对语言模型的运行至关重要,讲座旨在揭开CUDA和GPU的神秘面纱,帮助理解其工作原理及性能波动的原因,例如为何在特定矩阵乘法规模下GPU会变慢。学习目标包括让听众熟悉GPU,并能够利用CUDA等工具加速算法,例如理解FlashAttention这类高效算法的构建基础。演讲者提及了硬件发展的重要性,指出深度学习的进步得益于更快的硬件、更优的利用率和并行化。接着,演讲回顾了计算能力扩展的历史,从早期依赖登纳德缩放定律(Dennard scaling)提升CPU单核性能,到该趋势饱和后,转向并行计算的必要性,这也是GPU发展的关键。演讲者对比了CPU和GPU的设计理念:CPU侧重于低延迟,拥有复杂的控制单元以快速完成单个任务;而GPU则侧重于高吞吐量,通过大量并行计算单元(如ALU)同时处理多个任务,即使单个任务延迟可能更高,但总体处理效率更高。最后,演讲者初步介绍了GPU的内部结构,核心概念是流式多处理器(SM),每个SM包含多个流处理器(SP),SM负责控制逻辑和任务分发,而SP则对不同数据执行相同的指令,实现大规模并行计算。

GPU 语言模型 高性能计算 CUDA 内存瓶颈 并行计算 性能优化 FlashAttention 分块 重计算 矩阵乘法 硬件加速
已摘要 阅读时间:11 分钟(3809 个字) 2 summary versions