Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59
该讲座深入探讨了语言模型(LM)架构和训练的细节。演讲者首先回顾了标准的Transformer模型,并指出现代实现(如学生们在作业中构建的)已包含多项改进,例如将LayerNorm置于模块之前、使用旋转位置编码(RoPE)以及SwiGLU激活函数。
核心内容是通过分析大量已发布的语言模型(从2017年的原始Transformer到2025年的最新模型如Llama 3、Qwen 2.5等),总结架构设计的演进趋势和共识。演讲者强调了从他人经验中学习的重要性,并展示了一个电子表格,追踪了不同模型在位置编码、归一化层等方面的选择。一个显著的趋同进化案例是位置编码,从早期的多种方案(绝对、相对、Alibi)到2023年后RoPE成为主流选择。
讲座重点讨论了架构变体中的一个关键共识:预归一化(Pre-Norm)优于后归一化(Post-Norm)。原始Transformer使用后归一化,但几乎所有现代大型语言模型都转向了预归一化,因为它能显著提升训练稳定性,减少损失尖峰,并可能无需学习率预热。演讲者引用了早期研究来支持这一观点,并提及了一个近期可能的新进展,暂称为“双重归一化”(double norm)。
此外,讲座预告了后续将讨论激活函数、前馈网络、注意力变体、位置编码等具体架构组件,以及隐藏层维度、词汇表大小等超参数的选择。
语言模型
Transformer架构
大型语言模型
模型训练
训练稳定性
架构演进
层归一化
RMSNorm
旋转位置编码
SwiGLU
注意力机制
超参数
已摘要
阅读时间:9 分钟(3084 个字)
2 summary versions