音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "训练稳定性"

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 03 Architectures, Hyperparameters

2025-05-13 16:59

该讲座深入探讨了语言模型（LM）架构和训练的细节。演讲者首先回顾了标准的Transformer模型，并指出现代实现（如学生们在作业中构建的）已包含多项改进，例如将LayerNorm置于模块之前、使用旋转位置编码（RoPE）以及SwiGLU激活函数。核心内容是通过分析大量已发布的语言模型（从2017年的原始Transformer到2025年的最新模型如Llama 3、Qwen 2.5等），总结架构设计的演进趋势和共识。演讲者强调了从他人经验中学习的重要性，并展示了一个电子表格，追踪了不同模型在位置编码、归一化层等方面的选择。一个显著的趋同进化案例是位置编码，从早期的多种方案（绝对、相对、Alibi）到2023年后RoPE成为主流选择。讲座重点讨论了架构变体中的一个关键共识：预归一化（Pre-Norm）优于后归一化（Post-Norm）。原始Transformer使用后归一化，但几乎所有现代大型语言模型都转向了预归一化，因为它能显著提升训练稳定性，减少损失尖峰，并可能无需学习率预热。演讲者引用了早期研究来支持这一观点，并提及了一个近期可能的新进展，暂称为“双重归一化”（double norm）。此外，讲座预告了后续将讨论激活函数、前馈网络、注意力变体、位置编码等具体架构组件，以及隐藏层维度、词汇表大小等超参数的选择。

语言模型 Transformer架构大型语言模型模型训练训练稳定性架构演进层归一化 RMSNorm 旋转位置编码 SwiGLU 注意力机制超参数

已摘要阅读时间：9 分钟（3084 个字） 2 summary versions