音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "MLSys"

Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87

2025-05-16 20:59

本次讲座是斯坦福MLSys研讨会第87期，主讲人Tri Dao讨论了面向序列建模的硬件感知算法。讲座分为两部分：第一部分关注改进Transformer中的自注意力机制，指出其在处理长序列时存在时间和内存复杂度呈平方增长的问题。通过IO感知算法（如FlashAttention），可以显著提高注意力计算的速度和内存效率，从而支持更长的上下文并提升模型质量。同时介绍了长上下文大型语言模型推理的优化方法。第二部分探讨了二次以下时间复杂度的模型架构，如循环神经网络（RNN）、门控卷积和结构化状态空间模型（SSM）。讲座指出这些模型的关键弱点在于缺乏基于内容的推理能力，并提出了选择机制来解决此问题。尽管这会影响卷积效率，但设计了硬件感知的并行算法。将这些选择性SSM集成到简化架构Mamba中，该模型在语言建模任务上达到或超过了现代Transformer的性能，并具有更快的推理速度和更长的上下文处理能力。

MLSys 硬件感知算法序列建模 GPU内存 FlashAttention 注意力机制 Mamba模型状态空间模型长上下文 LLM推理性能优化

已摘要阅读时间：11 分钟（3649 个字） 2 summary versions