音频媒体文件

清除
标签搜索结果 for "模型训练"
2025-06-11 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1
2025-06-11 11:49

数据:语言模型训练的核心要素

语言模型 LLM 模型训练 数据处理 预训练 指令微调 合成数据 Common Crawl 版权法 合理使用
已摘要 阅读时间:7 分钟(2385 个字) 2 summary versions
B站 | 微软Reactor_SH | 玩转 GitHub Copilot|面向 MLOps⧸数据科学家的 GitHub Copilot
2025-06-05 16:14

GitHub Copilot 助力 MLOps 与数据科学高效编程

GitHub Copilot MLOps 数据科学 AI编程助手 机器学习 数据预处理 特征工程 模型训练 模型评估 Pandas Scikit-learn 代码生成
已摘要 阅读时间:7 分钟(2186 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws
2025-05-17 21:56

该讲座主要探讨了大规模语言模型(LLM)的伸缩法则(Scaling Laws),旨在通过研究小模型的行为来预测和优化大模型的训练。 核心内容包括: 1. **伸缩法则的动机与历史**:伸缩法则旨在建立模型性能与计算资源(如数据量、模型大小、训练步数)之间的可预测关系,从而在有限的计算预算下高效训练出最佳模型。讲座回顾了伸缩法则思想的早期渊源,如贝尔实验室1993年的工作及后续研究,强调了从理论边界到经验拟合的转变。 2. **关键技术与方法**: * **最大更新参数化 (μP)**:一种旨在使超参数(尤其是学习率)在不同模型宽度下保持稳定的技术。通过调整特定层(如矩阵类、嵌入层、输出层)的初始化方差和学习率缩放,μP试图简化从小型模型到大型模型的超参数迁移。CerebrasGPT和MiniCPM等模型应用了μP,并发现其有助于稳定训练和预测伸缩行为。Lingle的预印本研究进一步验证了μP在宽度伸缩时的有效性,但也指出了其局限性,如对可学习的RMSNorm增益、某些优化器(如Lion)和强权重衰减不鲁棒。 * **Chinchilla伸缩法则与数据/模型权衡**:DeepMind的Chinchilla论文提出了在固定计算预算下,模型大小和训练数据量之间存在最优配比。讲座讨论了如何拟合这类伸缩法则,如$L(N,D) = E + AN^{-\alpha} + BD^{-\beta}$。 * **WSD学习率调度 (Warmup-Stable-Decay)**:为了降低拟合Chinchilla伸缩法则所需的大量完整训练成本,MiniCPM和DeepSeek等采用了分阶段(预热-稳定-衰减)学习率调度。这种方法允许从稳定阶段的检查点开始衰减学习率,从而以较低成本(线性而非平方级)获得不同数据量下的模型性能点,用于伸缩法则分析。 * **IsoFLOP分析**:另一种确定最优模型和数据规模的方法,通过在恒定计算量(FLOPs)下比较不同模型配置的性能。DeepSeek、Llama 3和Hunyuan等模型采用了此类分析。 3. **近期模型案例分析**: * **CerebrasGPT**:应用μP实现了更稳定的伸缩,并基于Chinchilla法则进行训练。 * **MiniCPM**:结合μP和WSD学习率进行精细的伸缩计算,以较小模型尺寸(1-2.5B)实现了高性能,并发现最优数据与模型参数量之比远高于早期Chinchilla研究(如平均192:1,而非20:1)。 * **DeepSeek**:未使用μP,而是直接通过小规模实验估计最优批次大小和学习率的伸缩规律,并采用WSD式学习率进行Chinchilla分析(IsoFLOP方法),其伸缩模型能较好预测最终模型性能。 * **Llama 3**:据报道采用IsoFLOPs式伸缩,数据与参数比约为39:1。 * **Hunyuan-Large**:针对MoE模型,采用IsoFLOPs式伸缩分析激活参数量,发现数据与激活参数的最优比率为96:1。 * **MiniMax-01**:关注架构选择对伸缩法则的影响,结合Chinchilla方法1进行分析。 4. **伸缩实践总结与挑战**: * **挑战**:如何设定模型架构超参数(宽度、深度等)、优化器超参数(学习率、批次大小),以及如何经济地进行Chinchilla式的大范围扫描。 * **解决方案趋势**:依赖超参数稳定性假设或使用μP;在小规模上搜索最优学习率/批次大小,然后固定或预测其伸缩行为;采用WSD等替代学习率调度方案以降低伸缩分析成本。 讲座强调,通过系统性的伸缩法则研究,可以在训练昂贵的大模型前,更科学地做出架构选择和超参数设定,从而提升研发效率和模型性能。近期研究趋势表明,为达到最优性能,模型可能需要比以往认为的更多的数据进行训练。

LLM Scaling Laws 模型训练 超参数优化 Chinchilla法则 IsoFLOP分析 μP 数据伸缩 模型伸缩 训练效率 深度学习
已摘要 阅读时间:13 分钟(4437 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59

该讲座深入探讨了语言模型(LM)架构和训练的细节。演讲者首先回顾了标准的Transformer模型,并指出现代实现(如学生们在作业中构建的)已包含多项改进,例如将LayerNorm置于模块之前、使用旋转位置编码(RoPE)以及SwiGLU激活函数。 核心内容是通过分析大量已发布的语言模型(从2017年的原始Transformer到2025年的最新模型如Llama 3、Qwen 2.5等),总结架构设计的演进趋势和共识。演讲者强调了从他人经验中学习的重要性,并展示了一个电子表格,追踪了不同模型在位置编码、归一化层等方面的选择。一个显著的趋同进化案例是位置编码,从早期的多种方案(绝对、相对、Alibi)到2023年后RoPE成为主流选择。 讲座重点讨论了架构变体中的一个关键共识:预归一化(Pre-Norm)优于后归一化(Post-Norm)。原始Transformer使用后归一化,但几乎所有现代大型语言模型都转向了预归一化,因为它能显著提升训练稳定性,减少损失尖峰,并可能无需学习率预热。演讲者引用了早期研究来支持这一观点,并提及了一个近期可能的新进展,暂称为“双重归一化”(double norm)。 此外,讲座预告了后续将讨论激活函数、前馈网络、注意力变体、位置编码等具体架构组件,以及隐藏层维度、词汇表大小等超参数的选择。

语言模型 Transformer架构 大型语言模型 模型训练 训练稳定性 架构演进 层归一化 RMSNorm 旋转位置编码 SwiGLU 注意力机制 超参数
已摘要 阅读时间:9 分钟(3084 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 04 Mixture of experts
2025-05-13 16:59

该讲座介绍了混合专家(MoE)架构在语言模型中的应用。讲座指出,MoE已成为2025年构建高性能大语言模型(如Grok、DeepSeek、Llama 4)的关键技术,相较于密集模型,能在相似计算资源消耗(FLOPs)下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络(FFN)替换为多个“专家”(即多个FFN副本)和一个“路由器”。在每次前向传播时,路由器会选择性地激活一小部分专家进行计算,从而在不显著增加实际计算量的前提下,大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标(如困惑度)。 讲座强调了MoE的几大优势:1) 以更少的计算激活更多参数,提升模型容量和知识记忆能力;2) 在相同训练FLOPs下性能优于密集模型;3) 提供“专家并行”这一新的模型并行化维度,便于将大模型扩展到多设备上。 尽管MoE在系统实现上存在复杂性,例如专家权重的存储和数据路由,但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及,MoE技术早期由Google等闭源实验室研发,中国团队(如Qwen、DeepSeek)在开源MoE的探索和基准测试方面做出了重要贡献,近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型 混合专家 MoE架构 Transformer模型 稀疏激活 专家并行 模型训练 模型优化 计算效率 DeepSeek V3
已摘要 阅读时间:15 分钟(4973 个字) 3 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程,包括数据、系统与建模。该课程的讲座将发布于YouTube。 主讲人Percy认为,当前研究者与底层技术日益脱节,许多人仅依赖调用大型专有模型接口。他强调,尽管便捷,但这些抽象是“泄露的”,真正的基础研究仍需深入理解技术栈的各个层面。因此,课程的核心理念是“要理解它,就必须构建它”。 鉴于前沿模型(如GPT-4)规模庞大、成本高昂且技术细节不公开,学生将专注于构建小型语言模型。Percy承认,小型模型可能无法完全复现大规模模型的某些特性(如不同模块的计算占比变化、特定能力的涌现)。 尽管如此,课程仍能传授三个层面的知识:1) 模型运行的“机制”(如Transformer架构、并行计算);2) “思维模式”(如追求硬件极限性能、严肃对待规模化问题,这被认为是OpenAI成功的关键);3) 关于数据与模型选择的“直觉”(但这部分受规模效应影响,只能部分传授,因为小规模有效的策略未必适用于大规模)。 Percy还对“惨痛的教训”进行了解读,指出并非“规模决定一切”,而是“规模化的有效算法”至关重要。他强调,效率(尤其是算法效率,其进步已超越摩尔定律)在大规模训练中更为关键。 课程旨在引导学生思考的核心问题是:在给定的计算和数据预算下,如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算 规模法则 模型训练 模型对齐 数据处理 GPU优化
已摘要 阅读时间:15 分钟(4925 个字) 2 summary versions