Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87
2025-05-16 20:59
本次讲座是斯坦福MLSys研讨会第87期,主讲人Tri Dao讨论了面向序列建模的硬件感知算法。讲座分为两部分:第一部分关注改进Transformer中的自注意力机制,指出其在处理长序列时存在时间和内存复杂度呈平方增长的问题。通过IO感知算法(如FlashAttention),可以显著提高注意力计算的速度和内存效率,从而支持更长的上下文并提升模型质量。同时介绍了长上下文大型语言模型推理的优化方法。第二部分探讨了二次以下时间复杂度的模型架构,如循环神经网络(RNN)、门控卷积和结构化状态空间模型(SSM)。讲座指出这些模型的关键弱点在于缺乏基于内容的推理能力,并提出了选择机制来解决此问题。尽管这会影响卷积效率,但设计了硬件感知的并行算法。将这些选择性SSM集成到简化架构Mamba中,该模型在语言建模任务上达到或超过了现代Transformer的性能,并具有更快的推理速度和更长的上下文处理能力。
MLSys
硬件感知算法
序列建模
GPU内存
FlashAttention
注意力机制
Mamba模型
状态空间模型
长上下文
LLM推理
性能优化
已摘要
阅读时间:11 分钟(3649 个字)
2 summary versions