音频媒体列表 - StreamSparkAI

2025-06-11 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1

2025-06-11 11:49

数据：语言模型训练的核心要素

语言模型 LLM 模型训练数据处理预训练指令微调合成数据 Common Crawl 版权法合理使用

已摘要阅读时间：7 分钟（2385 个字） 2 summary versions

B站 | 微软Reactor_SH | 玩转 GitHub Copilot｜面向 MLOps⧸数据科学家的 GitHub Copilot

2025-06-05 16:14

GitHub Copilot 助力 MLOps 与数据科学高效编程

GitHub Copilot MLOps 数据科学 AI编程助手机器学习数据预处理特征工程模型训练模型评估 Pandas Scikit-learn 代码生成

已摘要阅读时间：7 分钟（2186 个字） 1 summary version

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws

2025-05-17 21:56

该讲座主要探讨了大规模语言模型（LLM）的伸缩法则（Scaling Laws），旨在通过研究小模型的行为来预测和优化大模型的训练。核心内容包括： 1. **伸缩法则的动机与历史**：伸缩法则旨在建立模型性能与计算资源（如数据量、模型大小、训练步数）之间的可预测关系，从而在有限的计算预算下高效训练出最佳模型。讲座回顾了伸缩法则思想的早期渊源，如贝尔实验室1993年的工作及后续研究，强调了从理论边界到经验拟合的转变。 2. **关键技术与方法**： * **最大更新参数化 (μP)**：一种旨在使超参数（尤其是学习率）在不同模型宽度下保持稳定的技术。通过调整特定层（如矩阵类、嵌入层、输出层）的初始化方差和学习率缩放，μP试图简化从小型模型到大型模型的超参数迁移。CerebrasGPT和MiniCPM等模型应用了μP，并发现其有助于稳定训练和预测伸缩行为。Lingle的预印本研究进一步验证了μP在宽度伸缩时的有效性，但也指出了其局限性，如对可学习的RMSNorm增益、某些优化器（如Lion）和强权重衰减不鲁棒。 * **Chinchilla伸缩法则与数据/模型权衡**：DeepMind的Chinchilla论文提出了在固定计算预算下，模型大小和训练数据量之间存在最优配比。讲座讨论了如何拟合这类伸缩法则，如$L(N,D) = E + AN^{-\alpha} + BD^{-\beta}$。 * **WSD学习率调度 (Warmup-Stable-Decay)**：为了降低拟合Chinchilla伸缩法则所需的大量完整训练成本，MiniCPM和DeepSeek等采用了分阶段（预热-稳定-衰减）学习率调度。这种方法允许从稳定阶段的检查点开始衰减学习率，从而以较低成本（线性而非平方级）获得不同数据量下的模型性能点，用于伸缩法则分析。 * **IsoFLOP分析**：另一种确定最优模型和数据规模的方法，通过在恒定计算量（FLOPs）下比较不同模型配置的性能。DeepSeek、Llama 3和Hunyuan等模型采用了此类分析。 3. **近期模型案例分析**： * **CerebrasGPT**：应用μP实现了更稳定的伸缩，并基于Chinchilla法则进行训练。 * **MiniCPM**：结合μP和WSD学习率进行精细的伸缩计算，以较小模型尺寸（1-2.5B）实现了高性能，并发现最优数据与模型参数量之比远高于早期Chinchilla研究（如平均192:1，而非20:1）。 * **DeepSeek**：未使用μP，而是直接通过小规模实验估计最优批次大小和学习率的伸缩规律，并采用WSD式学习率进行Chinchilla分析（IsoFLOP方法），其伸缩模型能较好预测最终模型性能。 * **Llama 3**：据报道采用IsoFLOPs式伸缩，数据与参数比约为39:1。 * **Hunyuan-Large**：针对MoE模型，采用IsoFLOPs式伸缩分析激活参数量，发现数据与激活参数的最优比率为96:1。 * **MiniMax-01**：关注架构选择对伸缩法则的影响，结合Chinchilla方法1进行分析。 4. **伸缩实践总结与挑战**： * **挑战**：如何设定模型架构超参数（宽度、深度等）、优化器超参数（学习率、批次大小），以及如何经济地进行Chinchilla式的大范围扫描。 * **解决方案趋势**：依赖超参数稳定性假设或使用μP；在小规模上搜索最优学习率/批次大小，然后固定或预测其伸缩行为；采用WSD等替代学习率调度方案以降低伸缩分析成本。讲座强调，通过系统性的伸缩法则研究，可以在训练昂贵的大模型前，更科学地做出架构选择和超参数设定，从而提升研发效率和模型性能。近期研究趋势表明，为达到最优性能，模型可能需要比以往认为的更多的数据进行训练。

LLM Scaling Laws 模型训练超参数优化 Chinchilla法则 IsoFLOP分析 μP 数据伸缩模型伸缩训练效率深度学习

已摘要阅读时间：13 分钟（4437 个字） 2 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 03 Architectures, Hyperparameters

2025-05-13 16:59

该讲座深入探讨了语言模型（LM）架构和训练的细节。演讲者首先回顾了标准的Transformer模型，并指出现代实现（如学生们在作业中构建的）已包含多项改进，例如将LayerNorm置于模块之前、使用旋转位置编码（RoPE）以及SwiGLU激活函数。核心内容是通过分析大量已发布的语言模型（从2017年的原始Transformer到2025年的最新模型如Llama 3、Qwen 2.5等），总结架构设计的演进趋势和共识。演讲者强调了从他人经验中学习的重要性，并展示了一个电子表格，追踪了不同模型在位置编码、归一化层等方面的选择。一个显著的趋同进化案例是位置编码，从早期的多种方案（绝对、相对、Alibi）到2023年后RoPE成为主流选择。讲座重点讨论了架构变体中的一个关键共识：预归一化（Pre-Norm）优于后归一化（Post-Norm）。原始Transformer使用后归一化，但几乎所有现代大型语言模型都转向了预归一化，因为它能显著提升训练稳定性，减少损失尖峰，并可能无需学习率预热。演讲者引用了早期研究来支持这一观点，并提及了一个近期可能的新进展，暂称为“双重归一化”（double norm）。此外，讲座预告了后续将讨论激活函数、前馈网络、注意力变体、位置编码等具体架构组件，以及隐藏层维度、词汇表大小等超参数的选择。

语言模型 Transformer架构大型语言模型模型训练训练稳定性架构演进层归一化 RMSNorm 旋转位置编码 SwiGLU 注意力机制超参数

已摘要阅读时间：9 分钟（3084 个字） 2 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 04 Mixture of experts

2025-05-13 16:59

该讲座介绍了混合专家（MoE）架构在语言模型中的应用。讲座指出，MoE已成为2025年构建高性能大语言模型（如Grok、DeepSeek、Llama 4）的关键技术，相较于密集模型，能在相似计算资源消耗（FLOPs）下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络（FFN）替换为多个“专家”（即多个FFN副本）和一个“路由器”。在每次前向传播时，路由器会选择性地激活一小部分专家进行计算，从而在不显著增加实际计算量的前提下，大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标（如困惑度）。讲座强调了MoE的几大优势：1) 以更少的计算激活更多参数，提升模型容量和知识记忆能力；2) 在相同训练FLOPs下性能优于密集模型；3) 提供“专家并行”这一新的模型并行化维度，便于将大模型扩展到多设备上。尽管MoE在系统实现上存在复杂性，例如专家权重的存储和数据路由，但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及，MoE技术早期由Google等闭源实验室研发，中国团队（如Qwen、DeepSeek）在开源MoE的探索和基准测试方面做出了重要贡献，近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型混合专家 MoE架构 Transformer模型稀疏激活专家并行模型训练模型优化计算效率 DeepSeek V3

已摘要阅读时间：15 分钟（4973 个字） 3 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 01 Overview and Tokenization

2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程，包括数据、系统与建模。该课程的讲座将发布于YouTube。主讲人Percy认为，当前研究者与底层技术日益脱节，许多人仅依赖调用大型专有模型接口。他强调，尽管便捷，但这些抽象是“泄露的”，真正的基础研究仍需深入理解技术栈的各个层面。因此，课程的核心理念是“要理解它，就必须构建它”。鉴于前沿模型（如GPT-4）规模庞大、成本高昂且技术细节不公开，学生将专注于构建小型语言模型。Percy承认，小型模型可能无法完全复现大规模模型的某些特性（如不同模块的计算占比变化、特定能力的涌现）。尽管如此，课程仍能传授三个层面的知识：1) 模型运行的“机制”（如Transformer架构、并行计算）；2) “思维模式”（如追求硬件极限性能、严肃对待规模化问题，这被认为是OpenAI成功的关键）；3) 关于数据与模型选择的“直觉”（但这部分受规模效应影响，只能部分传授，因为小规模有效的策略未必适用于大规模）。 Percy还对“惨痛的教训”进行了解读，指出并非“规模决定一切”，而是“规模化的有效算法”至关重要。他强调，效率（尤其是算法效率，其进步已超越摩尔定律）在大规模训练中更为关键。课程旨在引导学生思考的核心问题是：在给定的计算和数据预算下，如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算规模法则模型训练模型对齐数据处理 GPU优化