Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

Detailed Summary 摘要

生成：2025-05-27 21:46

摘要详情

音频文件: Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-exp-03-25
创建时间: 2025-05-27 21:46:55

摘要内容

概览/核心摘要 (Executive Summary)

Denny Zhou (Google DeepMind) 在 Stanford CS25 的讲座中深入探讨了大型语言模型 (LLM) 的推理能力。他首先将 LLM 推理定义为输入与输出之间的中间令牌 (intermediate tokens) 或中间步骤，并强调了其重要性，引用了理论研究证明恒定大小的 Transformer 可以通过生成 O(T) 中间令牌来解决 P 电路 (P-circuits) 可解决的问题。Denny 认为，预训练的 LLM 本身已具备推理潜力，关键在于解码过程。他回顾了多种引发和增强 LLM 推理的方法，包括早期的链式思考 (Chain-of-Thought, CoT) 解码（选择最终答案置信度最高的候选路径）和 CoT 提示（如 few-shot 示例和 "Let's think step by step"）。

随后，讲座重点讨论了监督式微调 (Supervised Fine-Tuning, SFT) 及其在泛化性上的局限，进而引出了更强大的迭代式微调 (Iterative Fine-Tuning, IFT) 或称自改进 (Self-Improve)，即模型生成推理路径，通过验证器筛选正确路径后用于进一步微调自身。这种方法之所以有效，是因为它直接优化了衡量生成质量的指标。Denny 强调，LLM 的推理是从词元到词元的预测中涌现的，而非经典 AI 的显式搜索，并通过 Gemini 2.0 [原文为 gm 92.0，推测应为 Gemini 2.0 的某个版本或模式，如原文提及的 "synken mode"] 解决复杂数学问题的例子加以说明。

为进一步提升推理性能，Denny 介绍了聚合 (Aggregation) 技术，特别是自洽性 (Self-Consistency)，通过对多个采样输出进行投票选择最频繁的最终答案，显著提升了准确率。此外，检索 (Retrieval) 增强推理也被提及，通过模型回忆相关问题或知识来辅助解决当前问题。Denny 总结道，有推理优于无推理，IFT 优于 SFT，聚合优于单一答案，检索加推理优于单纯推理。他展望未来，希望能解决自动可验证答案之外的任务，并构建真实的 AI 应用。

LLM 推理的定义与重要性

Denny Zhou (Speaker 2) 开篇明确了他对 LLM 推理的定义：
* 推理 (Reasoning)：特指“输入和输出之间的中间令牌 (intermediate tokens)，称为推理或中间步骤 (intermediate steps)”。
* 这个概念并非全新，早在 2017 年，DeepMind [原文为 Duman，推测为 DeepMind] 就有论文探讨使用中间令牌解决数学问题。
* Denny Zhou 创立 Google Brain 推理团队时，设计了“最后一个字母串联 (last letter concatenation)”任务作为激励示例，例如“artificial intelligence”的最后一个字母串联，有推理过程的模型会输出“artificial 的最后一个字母是 l，intelligence 的最后一个字母是 e，串联 l 和 e 得到 le”。
* 他强调一个核心观点：“LMs are just probability models. They are not humans.” 保持这一认知有助于理解许多新技术。

中间令牌的理论意义

Denny 引用了与斯坦福大学 Tamar [不确定姓氏，原文为 Tama] 教授及其学生的合作研究成果：“对于任何可由大小为 T 的 P 电路 (P-circuits) [原文为 pucircus] 解决的问题，恒定大小的 Transformer 可以通过生成 O(T) 个中间令牌来解决它。”
- “大小 (size)”指逻辑门数量。
- 若直接生成最终答案，要么需要巨大的深度，要么根本无法解决。
这是从理论角度理解推理的方式。

预训练 LLM 的内在推理潜力与解码

Denny Zhou 反驳了一个普遍看法，即“预训练 LLM 在没有进一步提示工程（如 CoT 提示）或微调的情况下无法推理”。
* 他的观点是：“Pre-trained LMs are ready to reason, and all we need is decoding, just about decoding process.”
* 示例：苹果问题
* 问题：“我有3个苹果，我爸爸比我多2个苹果，我们总共有多少个苹果？”
* 贪婪解码 (Greedy Decoding) 可能直接输出错误答案，如“5个苹果”。
* 但若查看第二个或第四个候选输出（基于第一个词元的选择），可能会发现包含正确推理过程的答案：
* 第二个候选：“I have three apples and my dad has two more apples than me. So he has five apples and three plus five to eight.” (答案正确)
* 第四个候选（以 "You" 开头）也可能展现链式思考并得到正确答案。
* 这表明“the reasoning path is already in the output space.” 问题在于如何选择最佳响应。

链式思考 (Chain-of-Thought, CoT) 解码

一种选择最佳响应的方法是基于答案置信度 (answer confidence)。
对于包含链式思考推理的响应，最终答案词元的置信度（概率）会非常高。例如，在苹果问题中，答案词元 "eight" (8) 的模型置信度 [原文为 companies，推测为 confidence] 接近 98%。
CoT 解码流程：
1. 超越贪婪解码，检查更多生成候选。
2. 选择最终答案具有最高置信度的候选。
Denny 认为这是一种简单但需要编程工作的方法。

通过提示工程和微调引发推理

提示工程 (Prompting Engineering)

目标是“重塑模型的输出分布，使深思熟虑的响应自然排名靠前 (reshape the model's output distribution so that thoughtful responses naturally rank first)”。
* 少样本 CoT 提示 (Few-shot Chain-of-Thought Prompting)：
* 在问题前提供一个或多个类似的、包含逐步解题过程的示例。
* 模型会“神奇地”遵循这种风格生成逐步解决方案。
* 原理：“it changes the output distribution to push the original chain-of-thought solutions in the output space to the top position.”
* “让我们一步一步思考 (Let's think step by step)”提示：
* 一种通用提示，无需寻找相似示例。
* Denny 提到，当他尝试在 Google 的 PaLM 模型上使用这个“魔法技巧”时，发现它确实有效，令他非常震惊。
* 提示工程的缺陷：
* 少样本 CoT 提示需要任务特定的示例，Denny 认为这不自然 (“If I have questions to ask someone, if I know similar problems, I can, then I can solve it by myself, right?”)。
* “Let's think step by step” 虽然通用，但“performs much worse than a few-shot prompting.”
* 两种方法都显得有些“奇怪 (weird)”，不符合理想的交互方式。

监督式微调 (Supervised Fine-Tuning, SFT)

思路：收集一系列问题和由人类标注者提供的逐步解决方案，然后最大化模型对这些人类解决方案的似然性。
历史：
- DeepMind 2017 年的论文就采用了类似方法收集数学问题和人类标注的解题步骤。
- OpenAI 在 2021 年进一步扩展此方法，构建了更大的数据集 GSM8K (Grade School Math problems)，并用其微调 GPT-3 模型。
示例：使用“最后一个字母串联”问题和答案，或苹果问题和答案作为训练数据微调模型。
局限性：SFT 在推理任务上“doesn't generalize well.”
- Denny 团队在 2021 年夏天意识到此问题。
- 他强调：“Don't scale for ently [不确定，原文为 for ently，疑为 'Don't scale blindly/indefinitely']. Once the paradigm is wrong, no matter how to scale, it doesn't work.”

迭代式微调 (Iterative Fine-Tuning, IFT) / 自改进 (Self-Improve)

这是对 SFT 泛化问题的改进，Denny 团队的成员发明了此方法，最初称为“自改进 (self-improve)”。
* 核心思想：用模型生成的响应进行训练，而非人类数据。
1. 收集一系列问题。
2. 让模型生成逐步解决方案。
3. 使用验证器 (verifier)（例如，对于数学问题，可以检查最终答案是否与真实答案一致）来判断哪些模型生成的解决方案是正确的。
4. 仅使用这些被验证为正确的模型生成解决方案来微调模型（最大化正确答案的似然性）。
* 与 SFT 的关键区别：训练数据来自模型自身，而非人类。
* 论文参考：Eric [不确定姓氏]、Tony [不确定姓氏] 和 Noah [原文为 nohour，推测为 Noah] 的论文 "STaR" (Self-Taught Reasoner)。最初提出是为了节省昂贵的人类标注成本。
* 迭代过程：模型改进后，可以再次用于生成更高质量的训练数据，形成一个迭代循环。这与当前流行的 RLAIF (Reinforcement Learning from AI Feedback) 或类似微调方法思想一致。
* Denny 提到一篇字节跳动 [原文为 bdance] 研究者于 2024 年 1 月发表的关于此方法的早期学术论文，标题为 "Reasoning with Reinforced Fine-Tuning [原文为 aning]"。
* 验证器的关键性：“A reliable verifier is the most crucial in IFT.”
* 为何模型生成的数据优于人类数据？
* 并非为了节省成本，而是关乎性能。
* Denny 引用机器学习第一性原理：“Directly optimize what we want.”
* 我们需要优化衡量生成质量的指标（如数学问题的正确性、机器翻译的 BLEU 分数）。
* 通过计算该指标的梯度并进行反向传播（策略梯度）。
* Denny 不喜欢用“激励模型去思考”这类说法，而是坚持标准机器学习术语：“定义你的指标，计算梯度，进行反向传播，仅此而已。”
* 扩展性 (Scaling)：对于 IFT 方法，通常扩展的是“output length, or scaled length of CoT”，而非必须扩展模型深度或大小。理论上，只要 CoT 足够长，模型就能解决几乎所有可计算问题。

LLM 推理的本质：涌现而非搜索

Denny 强调 LLM 推理的美妙之处：“Human-like reasoning process emerges from token-to-token prediction rather than relying on explicit search as in classical AI.”
* 他引用了卡斯帕罗夫在 1997 年输给深蓝后的评论：“深蓝的智能就像你的可编程闹钟一样智能。” Denny 同意此评论，但认为 LLM 推理是不同的，不进行显式搜索。
* 示例：Gemini 2.0 [原文为 gm 92.0，推测应为 Gemini 2.0 的某个版本或模式，如原文提及的 "synken mode"] 模型解决数学难题
* 问题（2024年12月测试，确保不在训练集中）：“使用数字1到10（每个数字用一次）以及基本运算（加、乘）来组成2025。”
* 模型生成的思考过程（非搜索）：
* “这是一个相对较大的数字，表明乘法将被大量使用。”
* “值得注意的是，2025 是 45 的平方 (45 * 45)。” (Denny 表示他出题时都未意识到这点)
* 模型思考如何获得大的中间乘积，目标是接近 2025 的平方根 45。
* 最终模型给出了正确解法，如 (10 * 4 + 5) * (其他数字组合成的45) = 45 * 45 = 2025。
* 这比 CoT 提示论文中提到的 Game 24 问题（结合搜索与提示解决）更难，但模型仅通过自然语言推理解决。
* Denny 再次引用 Richard Sutton 的“The Bitter Lesson”：“构建所有发现只会使其更难看到发现过程是如何完成的。” Sutton 认为学习和搜索是可扩展的，但 Denny 在此更强调“learning is scalable”。

IFT 的局限性

IFT 的一大优势是泛化性好，但其主要局限在于“for automatically verifiable tasks”，因为循环中需要验证器。
对于非自动可验证的任务（如创意写作、日常编程工作的代码设计和可维护性），IFT 难以直接应用。

进一步提升推理性能的高级技术

Denny 讨论了两种进一步改进推理过程的关键思路：聚合 (Aggregation) 和 检索 (Retrieval)。

聚合：自洽性 (Self-Consistency)

问题背景：LLM 是概率模型。标准的逐步生成推理词元然后生成最终答案的解码过程（如贪婪解码）是在最大化 P(推理路径, 答案 | 问题)。然而，我们真正关心的是最大化 P(答案 | 问题)。
数学原理：边缘化 (Marginalization)
- 需要对所有可能的推理路径求和（或积分）来得到最终答案的概率。
- 推理路径本质上是潜变量 (latent variables)。
实现方法：自洽性 (Self-Consistency)
1. 通过随机采样生成多个响应（包含推理过程和最终答案）。
2. 选择出现最频繁的最终答案。
3. “We don't look at the reasoning path, we only choose the most frequent answer, not most frequently reasoning path. That's the trick.”
显著的性能提升：
- GSM8K 数据集上的数据：
  - 微调的 GPT-3 [原文为 funtunon three] 模型：约 33% [原文为 galaxthirty 3%] 准确率。
  - OpenAI 使用验证器：55% 准确率。
  - PaLM [原文为 part model] 模型 + CoT：58% 准确率。
  - 应用自洽性后，PaLM + CoT 准确率跃升至 75% (相对提升近 50%)。
  - PaLM 2 [原文为 upalm two] 甚至达到 92% 准确率。
- 即使是较新的模型（如 OpenAI 的某模型，Denny 提到可能去年10月发布），应用自洽性后仍有显著提升。
特性：
- 使用更多样本会更昂贵（增加推理时间）。
- 自洽性具有自校准 (self-calibrated) 特性：更高的一致性通常意味着更高的准确率。在 GSM8K 上，当自洽性超过 80% 时，准确率接近 100%。
重要区分：
- 如果 LLM 直接输出答案而无中间步骤，则无需多次采样选最常见答案，直接最大化该答案的概率即可（经典机器学习做法）。自洽性主要用于带推理过程的 LLM。
- 让 LLM 一次性生成多个不同答案，与多次独立采样然后选最常见答案，在原理上（最大边缘推理 Max Marginal Inference）是相通的。
通用自洽性 (Universal Self-Consistency)：对于答案非单一词元或更复杂的情况（如列出亚洲国家），让 LLM 自行判断哪个生成的复杂答案与其他答案最为一致。

检索 (Retrieval)

Denny 表示对“检索 vs 推理”的辩论不感兴趣，更关注实际性能：“To me, you know, just to retrieve a plus reasoning, why I should do the debate, right?”
示例 1：类比推理 (Analogy Reasoning) (2024年论文)
- 问题：“一个正方形四个顶点的坐标为...求面积？”
- 在没有提示的情况下，GPT-3.5 和 Google 自己的模型都失败了。
- 加入提示：“Recall a related problem and then solve this one.”
- 模型回忆起相关问题：“在坐标平面上找到两点之间的距离”及其公式。
- 然后模型成功计算出距离并求出面积。
示例 2：“退一步思考 (Step Back)”提示
- 对于物理问题，在解决前提示模型“退一步思考更抽象的问题，获取原理，然后再解决它。”
与“深度研究 (Deep Research)”的联系：Denny 提到 DeepMind [原文为 gynadeeper research] 和 OpenAI [原文为 open a deeper research] 都有类似“深度研究”的概念，其核心思想也是通过找到相似问题或知识来解决当前问题。

总结与未来展望

Denny Zhou 的核心观点总结：

有推理总是优于无推理 (Reasoning is always better than no reasoning)。
迭代式微调 (IFT) 优于监督式微调 (SFT) (IFT is better than SFT)。
聚合多个答案优于单个答案 (Aggregating multiple answers is better than one answer)，尽管成本更高。
检索 + 推理优于仅推理 (Retrieval plus reasoning is better than reasoning only)。

未来的突破方向：

解决超出唯一可验证答案的任务 (How to solve the task beyond unique verifiable answers)。
构建真实的应用程序，而不仅仅是解决基准测试 (Build real applications instead of just solving benchmarks)。 Denny 认为所有基准测试很快都会饱和。

Denny 最后引用了理查德·费曼 (Richard Feynman) 的话：“The truth always turned out to be simpler than you thought.” 他认为这在 AI 研究中尤其重要，许多学术论文倾向于复杂的方案，而他试图让讲座尽可能简单，因为事实确实如此。

问答环节 (Q&A)

关于置信度与幻觉 (Confidence and Hallucinations) (Speaker 3 提问):
- Denny (Speaker 2) 回应，他所说的置信度是指模型对下一个词元预测的条件概率（log probabilities）。
- 经验观察表明，在推理路径之后，最终答案的置信度会有巨大提升，这可能有助于识别幻觉。
关于搜索的必要性 (Necessity of Search) (Speaker 3 提问):
- Denny (Speaker 2) 澄清，在构建模型时，不必考虑搜索，但模型构建完成后，可以将搜索作为一种工具使用（如 Tree of Thoughts Prompting [原文为 twelve sword prompting，推测为 Tree of Thoughts] 结合符号搜索）。他个人在推理研究中更关注基础能力。模型可以被激励去写代码通过搜索解决问题，但推理过程本身不需要搜索。
无推理时采样与直接看 Logits 的区别 (Sampling vs. Logits without reasoning) (Speaker 3 提问):
- Denny (Speaker 2) 承认，训练阶段输出分布如何形成尚不完全清楚，因此难以确切回答，目前没有很好的解释。
区分推理和答案，特别是当答案是程序时 (Differentiating reasoning and answer, especially if answer is a program) (Speaker 3 提问):
- Denny (Speaker 2) 表示，如果答案是程序，提取会更困难。这就是为什么 IFT 通常用于数学问题或竞争性编程问题。对于一般情况，需要非常仔细的解析器来提取最终答案。
当低置信度答案反而是正确答案时，如何使用自洽性 (Low confidence answer being correct and self-consistency) (Speaker 3 提问):
- Denny (Speaker 2) 承认自洽性并非完美。
关于 AGI 时间线和未来技能培养 (AGI timeline and future skills for kids) (Speaker 3 提问):
- Denny (Speaker 2) 对“AGI 五年内到来”的说法表示怀疑。他提到去年在某会议 [原文为 I clear red last year，推测为某AI顶会如ICML/NeurIPS等] 的一个研讨会上，他担心的不是 AI 风险，而是“AI winter comes back and I then now lost my job.”
- 他看到了当前方法的许多局限性，并希望看到来自当前 AI 研究的真实“杀手级应用 (killer applications)”，而不仅仅是娱乐。
- 他认为 AI 模型在编程方面确实很好，可以作为编码助手，但对其他方面尚不确定。他表示“我们应该还好 (We should be fine)”。

评审反馈

总体评价

当前总结质量非常高，准确、全面地再现了讲座的核心内容、关键论点、示例及问答环节，并出色地处理了转录文本中的多处错误和不清晰之处。结构清晰，语言专业。

具体问题及建议

事实准确性（元数据层面）：
- 问题描述：提供的“审核资料”中，“当前总结”的标题和描述部分存在与讲座内容和转录文本不一致的信息：
  - 描述中的观看次数和日期（“7,694次观看 2025年5月22日”）与讲座日期（“April 29, 2025”）在时间上存在矛盾（观看数据统计于未来）。
  - 描述中包含两位演讲者信息（Denny Zhou 和 Hongyu Ren），但转录文本显示 Hongyu Ren (speaker 1) 仅为主持人，Denny Zhou (speaker 2) 为主讲人。当前总结正确地聚焦于 Denny Zhou 的演讲内容，但原始元数据可能引起混淆。
- 修改建议：虽然这不是对“当前总结”内容本身的直接批评，但在实际应用中，应确保元数据的准确性与一致性。建议核查并修正原始描述中的日期和演讲者角色信息，使其与实际情况（讲座日期 April 29, 2025，主讲人 Denny Zhou）相符。
事实准确性（总结内容细节）：
- 问题描述：在“LLM 推理的本质：涌现而非搜索”部分的 Gemini 示例中，总结提到“[原文为 gm 92.0，应为 Gemini 2.0] Synapse [不确定，疑为内部代号或特定模式] 模型”。转录文本为 "gm 92.0 synken mode"。总结对 "gm 92.0" 的修正和对 "Synapse" 的不确定性标注是恰当的。
- 修改建议：无需修改，总结处理得当。这体现了总结在处理模糊转录方面的优秀能力。
事实准确性（Q&A部分细节）：
- 问题描述：在问答环节，总结提到“他提到去年在 ICLR [应为 ICML 或 NeurIPS 等会议，ICLR 通常在春季] 的一个研讨会上”。转录文本为 "I clear red last year"。总结对 "I clear red" 的推测（ICLR）并标注其会议时间特性是合理的。
- 修改建议：无需修改，总结处理得当，展现了良好的推断和背景知识。
完整性与准确性（数据引用）：
- 问题描述：在“聚合：自洽性 (Self-Consistency)”部分，GSM8K 数据集上的准确率数据，例如“微调的 GPT-3 模型：约 33%”，源自转录文本“even for funtunon three models, they used the galaxthirty 3%”。总结对模糊转录的解读（“funtunon three” -> GPT-3，“galaxthirty 3%” -> 约33%）是合理的。
- 修改建议：无需修改，总结对数据的处理在转录质量限制下已做到最佳。

优化方向

保持高标准：当前总结在准确性、完整性和清晰度方面均表现出色，尤其是在处理有噪声的转录文本时。后续应继续保持这种高标准的处理能力。
元数据校对流程：虽然不直接属于总结内容，但鉴于元数据对内容发现和理解的重要性，建议在内容生产流程中加入对源材料元数据（如标题、描述、演讲者信息）的校对环节，确保其准确无误。
对不确定信息的处理：当前总结通过方括号标注不确定或修正的内容（如“[不确定姓氏，原文为 Tama]”、“[原文为 gm 92.0，应为 Gemini 2.0]”）是非常好的实践，建议继续沿用，这增加了总结的透明度和可信度。

返回音频媒体