Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29
斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程,包括数据、系统与建模。该课程的讲座将发布于YouTube。
主讲人Percy认为,当前研究者与底层技术日益脱节,许多人仅依赖调用大型专有模型接口。他强调,尽管便捷,但这些抽象是“泄露的”,真正的基础研究仍需深入理解技术栈的各个层面。因此,课程的核心理念是“要理解它,就必须构建它”。
鉴于前沿模型(如GPT-4)规模庞大、成本高昂且技术细节不公开,学生将专注于构建小型语言模型。Percy承认,小型模型可能无法完全复现大规模模型的某些特性(如不同模块的计算占比变化、特定能力的涌现)。
尽管如此,课程仍能传授三个层面的知识:1) 模型运行的“机制”(如Transformer架构、并行计算);2) “思维模式”(如追求硬件极限性能、严肃对待规模化问题,这被认为是OpenAI成功的关键);3) 关于数据与模型选择的“直觉”(但这部分受规模效应影响,只能部分传授,因为小规模有效的策略未必适用于大规模)。
Percy还对“惨痛的教训”进行了解读,指出并非“规模决定一切”,而是“规模化的有效算法”至关重要。他强调,效率(尤其是算法效率,其进步已超越摩尔定律)在大规模训练中更为关键。
课程旨在引导学生思考的核心问题是:在给定的计算和数据预算下,如何构建出最佳模型。
语言模型
LLMs
从零构建
Transformer
Tokenization
BPE
并行计算
规模法则
模型训练
模型对齐
数据处理
GPU优化
已摘要
阅读时间:15 分钟(4925 个字)
2 summary versions