音频媒体文件

清除
标签搜索结果 for "架构演进"
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59

该讲座深入探讨了语言模型(LM)架构和训练的细节。演讲者首先回顾了标准的Transformer模型,并指出现代实现(如学生们在作业中构建的)已包含多项改进,例如将LayerNorm置于模块之前、使用旋转位置编码(RoPE)以及SwiGLU激活函数。 核心内容是通过分析大量已发布的语言模型(从2017年的原始Transformer到2025年的最新模型如Llama 3、Qwen 2.5等),总结架构设计的演进趋势和共识。演讲者强调了从他人经验中学习的重要性,并展示了一个电子表格,追踪了不同模型在位置编码、归一化层等方面的选择。一个显著的趋同进化案例是位置编码,从早期的多种方案(绝对、相对、Alibi)到2023年后RoPE成为主流选择。 讲座重点讨论了架构变体中的一个关键共识:预归一化(Pre-Norm)优于后归一化(Post-Norm)。原始Transformer使用后归一化,但几乎所有现代大型语言模型都转向了预归一化,因为它能显著提升训练稳定性,减少损失尖峰,并可能无需学习率预热。演讲者引用了早期研究来支持这一观点,并提及了一个近期可能的新进展,暂称为“双重归一化”(double norm)。 此外,讲座预告了后续将讨论激活函数、前馈网络、注意力变体、位置编码等具体架构组件,以及隐藏层维度、词汇表大小等超参数的选择。

语言模型 Transformer架构 大型语言模型 模型训练 训练稳定性 架构演进 层归一化 RMSNorm 旋转位置编码 SwiGLU 注意力机制 超参数
已摘要 阅读时间:9 分钟(3084 个字) 2 summary versions