音频媒体文件

清除
标签搜索结果 for "μP"
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws
2025-05-17 21:56

该讲座主要探讨了大规模语言模型(LLM)的伸缩法则(Scaling Laws),旨在通过研究小模型的行为来预测和优化大模型的训练。 核心内容包括: 1. **伸缩法则的动机与历史**:伸缩法则旨在建立模型性能与计算资源(如数据量、模型大小、训练步数)之间的可预测关系,从而在有限的计算预算下高效训练出最佳模型。讲座回顾了伸缩法则思想的早期渊源,如贝尔实验室1993年的工作及后续研究,强调了从理论边界到经验拟合的转变。 2. **关键技术与方法**: * **最大更新参数化 (μP)**:一种旨在使超参数(尤其是学习率)在不同模型宽度下保持稳定的技术。通过调整特定层(如矩阵类、嵌入层、输出层)的初始化方差和学习率缩放,μP试图简化从小型模型到大型模型的超参数迁移。CerebrasGPT和MiniCPM等模型应用了μP,并发现其有助于稳定训练和预测伸缩行为。Lingle的预印本研究进一步验证了μP在宽度伸缩时的有效性,但也指出了其局限性,如对可学习的RMSNorm增益、某些优化器(如Lion)和强权重衰减不鲁棒。 * **Chinchilla伸缩法则与数据/模型权衡**:DeepMind的Chinchilla论文提出了在固定计算预算下,模型大小和训练数据量之间存在最优配比。讲座讨论了如何拟合这类伸缩法则,如$L(N,D) = E + AN^{-\alpha} + BD^{-\beta}$。 * **WSD学习率调度 (Warmup-Stable-Decay)**:为了降低拟合Chinchilla伸缩法则所需的大量完整训练成本,MiniCPM和DeepSeek等采用了分阶段(预热-稳定-衰减)学习率调度。这种方法允许从稳定阶段的检查点开始衰减学习率,从而以较低成本(线性而非平方级)获得不同数据量下的模型性能点,用于伸缩法则分析。 * **IsoFLOP分析**:另一种确定最优模型和数据规模的方法,通过在恒定计算量(FLOPs)下比较不同模型配置的性能。DeepSeek、Llama 3和Hunyuan等模型采用了此类分析。 3. **近期模型案例分析**: * **CerebrasGPT**:应用μP实现了更稳定的伸缩,并基于Chinchilla法则进行训练。 * **MiniCPM**:结合μP和WSD学习率进行精细的伸缩计算,以较小模型尺寸(1-2.5B)实现了高性能,并发现最优数据与模型参数量之比远高于早期Chinchilla研究(如平均192:1,而非20:1)。 * **DeepSeek**:未使用μP,而是直接通过小规模实验估计最优批次大小和学习率的伸缩规律,并采用WSD式学习率进行Chinchilla分析(IsoFLOP方法),其伸缩模型能较好预测最终模型性能。 * **Llama 3**:据报道采用IsoFLOPs式伸缩,数据与参数比约为39:1。 * **Hunyuan-Large**:针对MoE模型,采用IsoFLOPs式伸缩分析激活参数量,发现数据与激活参数的最优比率为96:1。 * **MiniMax-01**:关注架构选择对伸缩法则的影响,结合Chinchilla方法1进行分析。 4. **伸缩实践总结与挑战**: * **挑战**:如何设定模型架构超参数(宽度、深度等)、优化器超参数(学习率、批次大小),以及如何经济地进行Chinchilla式的大范围扫描。 * **解决方案趋势**:依赖超参数稳定性假设或使用μP;在小规模上搜索最优学习率/批次大小,然后固定或预测其伸缩行为;采用WSD等替代学习率调度方案以降低伸缩分析成本。 讲座强调,通过系统性的伸缩法则研究,可以在训练昂贵的大模型前,更科学地做出架构选择和超参数设定,从而提升研发效率和模型性能。近期研究趋势表明,为达到最优性能,模型可能需要比以往认为的更多的数据进行训练。

LLM Scaling Laws 模型训练 超参数优化 Chinchilla法则 IsoFLOP分析 μP 数据伸缩 模型伸缩 训练效率 深度学习
已摘要 阅读时间:13 分钟(4437 个字) 2 summary versions