音频媒体列表 - StreamSparkAI

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert

2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程，强调了从强化学习背景转向语言模型研究的趋势，并指出后训练阶段（如RLHF和DPO）对于大型语言模型的重要性日益增加。他提到，像Meta这样的大公司在后训练阶段使用的数据量远超研究机构，这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后，模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破，使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念，并强调指令微调（如添加系统提示）仍是当前模型微调的基础，它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research

已摘要阅读时间：14 分钟（4845 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma

2025-05-15 22:42

斯坦福大学博士生 Archit Sharma 介绍了大型语言模型的后训练（post-training）过程，旨在阐释如何从基础的预训练模型发展到如 ChatGPT 这样强大的模型。他首先强调了“规模法则”（scaling laws）的重要性：随着模型参数量（计算量从10^24浮点运算增至超过10^26）和训练数据量（从2022年的1.4万亿词元增至2024年Llama 3的约15万亿词元）的持续增长，模型能力不断提升，但同时也带来了巨大的成本投入。预训练不仅让模型学习事实知识、语法、语义和多种语言，更重要的是，模型开始展现出理解人类信念、行为和意图的深层能力。例如，模型能根据情境中人物的背景知识预测其不同反应，或在数学、编程（如Copilot辅助编码）、医学（初步诊断，但不建议作为医疗建议）等领域展现应用潜力。尽管预训练任务本质上是预测下一个词元，但模型正演变为通用的多任务助手。讲座的核心内容将依次探讨： 1. 零样本（Zero-Shot）和少样本（Few-Shot）上下文学习（In-Context Learning）。 2. 指令微调（Instruction fine-tuning）。 3. 基于人类偏好的优化方法（如DPO和RLHF）。 4. 探讨当前技术的局限与未来发展方向。以GPT系列模型为例，从GPT-1到GPT-2，通过扩大模型规模和数据量，GPT-2展现了零样本学习能力，即模型无需针对特定任务进行额外训练，仅通过巧妙设计提示（prompting），就能执行如文本摘要、问答等多种任务。

大型语言模型后训练指令精调 RLHF DPO 上下文学习零样本学习少样本学习提示工程 AI对齐规模法则 ChatGPT

已摘要阅读时间：12 分钟（3939 个字） 2 summary versions

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

2025-05-14 13:38

该讲座概述了大型语言模型（LLM）的构建过程。演讲者首先介绍了LLM（如ChatGPT、Claude、Gemini、Llama等）的基本概念，并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调，尽管学术界常关注架构与算法，但业界实践更侧重于数据、评估和系统的重要性，因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练（Pretraining）和后训练（Post-training）两个阶段。预训练阶段的目标是进行通用语言建模，让模型学习并理解大规模文本数据（如整个互联网的内容）。此阶段的核心任务是语言建模，即模型学习预测一个词元（token）序列出现的概率。当前主流的LLM采用自回归（Autoregressive）语言模型。这类模型通过概率的链式法则，将整个序列的联合概率分解为一系列条件概率的乘积，即在给定前面所有词元的条件下，预测下一个词元出现的概率。其工作流程大致为：首先对输入文本进行词元化（tokenization），将词或子词转换为唯一的ID；然后将这些词元ID输入模型（通常是Transformer架构，但讲座未深入探讨架构细节）；模型会输出一个在整个词汇表上的概率分布，表示下一个最可能的词元。在训练过程中，模型通过比较预测的词元分布与实际出现的词元（通常使用独热编码表示），并利用交叉熵损失函数（Cross-entropy loss）来调整模型参数，以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要，因为它定义了模型的词汇量大小，直接影响模型的输出维度。评估预训练模型的方法包括困惑度（Perplexity）和学术基准测试（如MMLU）。

大型语言模型 LLMs 预训练后训练 RLHF DPO 数据处理模型评估规模法则系统优化词元化

已摘要阅读时间：10 分钟（3289 个字） 3 summary versions

音频媒体文件

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)