音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "μP"

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws

2025-05-17 21:56

该讲座主要探讨了大规模语言模型（LLM）的伸缩法则（Scaling Laws），旨在通过研究小模型的行为来预测和优化大模型的训练。核心内容包括： 1. **伸缩法则的动机与历史**：伸缩法则旨在建立模型性能与计算资源（如数据量、模型大小、训练步数）之间的可预测关系，从而在有限的计算预算下高效训练出最佳模型。讲座回顾了伸缩法则思想的早期渊源，如贝尔实验室1993年的工作及后续研究，强调了从理论边界到经验拟合的转变。 2. **关键技术与方法**： * **最大更新参数化 (μP)**：一种旨在使超参数（尤其是学习率）在不同模型宽度下保持稳定的技术。通过调整特定层（如矩阵类、嵌入层、输出层）的初始化方差和学习率缩放，μP试图简化从小型模型到大型模型的超参数迁移。CerebrasGPT和MiniCPM等模型应用了μP，并发现其有助于稳定训练和预测伸缩行为。Lingle的预印本研究进一步验证了μP在宽度伸缩时的有效性，但也指出了其局限性，如对可学习的RMSNorm增益、某些优化器（如Lion）和强权重衰减不鲁棒。 * **Chinchilla伸缩法则与数据/模型权衡**：DeepMind的Chinchilla论文提出了在固定计算预算下，模型大小和训练数据量之间存在最优配比。讲座讨论了如何拟合这类伸缩法则，如$L(N,D) = E + AN^{-\alpha} + BD^{-\beta}$。 * **WSD学习率调度 (Warmup-Stable-Decay)**：为了降低拟合Chinchilla伸缩法则所需的大量完整训练成本，MiniCPM和DeepSeek等采用了分阶段（预热-稳定-衰减）学习率调度。这种方法允许从稳定阶段的检查点开始衰减学习率，从而以较低成本（线性而非平方级）获得不同数据量下的模型性能点，用于伸缩法则分析。 * **IsoFLOP分析**：另一种确定最优模型和数据规模的方法，通过在恒定计算量（FLOPs）下比较不同模型配置的性能。DeepSeek、Llama 3和Hunyuan等模型采用了此类分析。 3. **近期模型案例分析**： * **CerebrasGPT**：应用μP实现了更稳定的伸缩，并基于Chinchilla法则进行训练。 * **MiniCPM**：结合μP和WSD学习率进行精细的伸缩计算，以较小模型尺寸（1-2.5B）实现了高性能，并发现最优数据与模型参数量之比远高于早期Chinchilla研究（如平均192:1，而非20:1）。 * **DeepSeek**：未使用μP，而是直接通过小规模实验估计最优批次大小和学习率的伸缩规律，并采用WSD式学习率进行Chinchilla分析（IsoFLOP方法），其伸缩模型能较好预测最终模型性能。 * **Llama 3**：据报道采用IsoFLOPs式伸缩，数据与参数比约为39:1。 * **Hunyuan-Large**：针对MoE模型，采用IsoFLOPs式伸缩分析激活参数量，发现数据与激活参数的最优比率为96:1。 * **MiniMax-01**：关注架构选择对伸缩法则的影响，结合Chinchilla方法1进行分析。 4. **伸缩实践总结与挑战**： * **挑战**：如何设定模型架构超参数（宽度、深度等）、优化器超参数（学习率、批次大小），以及如何经济地进行Chinchilla式的大范围扫描。 * **解决方案趋势**：依赖超参数稳定性假设或使用μP；在小规模上搜索最优学习率/批次大小，然后固定或预测其伸缩行为；采用WSD等替代学习率调度方案以降低伸缩分析成本。讲座强调，通过系统性的伸缩法则研究，可以在训练昂贵的大模型前，更科学地做出架构选择和超参数设定，从而提升研发效率和模型性能。近期研究趋势表明，为达到最优性能，模型可能需要比以往认为的更多的数据进行训练。

LLM Scaling Laws 模型训练超参数优化 Chinchilla法则 IsoFLOP分析 μP 数据伸缩模型伸缩训练效率深度学习

已摘要阅读时间：13 分钟（4437 个字） 2 summary versions