2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38
该讲座概述了大型语言模型(LLM)的构建过程。演讲者首先介绍了LLM(如ChatGPT、Claude、Gemini、Llama等)的基本概念,并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调,尽管学术界常关注架构与算法,但业界实践更侧重于数据、评估和系统的重要性,因此本次讲座将重点讨论后者。
LLM的构建通常分为预训练(Pretraining)和后训练(Post-training)两个阶段。预训练阶段的目标是进行通用语言建模,让模型学习并理解大规模文本数据(如整个互联网的内容)。此阶段的核心任务是语言建模,即模型学习预测一个词元(token)序列出现的概率。
当前主流的LLM采用自回归(Autoregressive)语言模型。这类模型通过概率的链式法则,将整个序列的联合概率分解为一系列条件概率的乘积,即在给定前面所有词元的条件下,预测下一个词元出现的概率。其工作流程大致为:首先对输入文本进行词元化(tokenization),将词或子词转换为唯一的ID;然后将这些词元ID输入模型(通常是Transformer架构,但讲座未深入探讨架构细节);模型会输出一个在整个词汇表上的概率分布,表示下一个最可能的词元。在训练过程中,模型通过比较预测的词元分布与实际出现的词元(通常使用独热编码表示),并利用交叉熵损失函数(Cross-entropy loss)来调整模型参数,以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要,因为它定义了模型的词汇量大小,直接影响模型的输出维度。评估预训练模型的方法包括困惑度(Perplexity)和学术基准测试(如MMLU)。
大型语言模型
LLMs
预训练
后训练
RLHF
DPO
数据处理
模型评估
规模法则
系统优化
词元化
已摘要
阅读时间:10 分钟(3289 个字)
3 summary versions