详细摘要 摘要

生成:2025-05-27 21:46

摘要详情

音频文件
Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-exp-03-25
已创建
2025-05-27 21:46:55

概览/核心摘要 (Executive Summary)

Denny Zhou (Google DeepMind) 在 Stanford CS25 的讲座中深入探讨了大型语言模型 (LLM) 的推理能力。他首先将 LLM 推理定义为输入与输出之间的中间令牌 (intermediate tokens) 或中间步骤,并强调了其重要性,引用了理论研究证明恒定大小的 Transformer 可以通过生成 O(T) 中间令牌来解决 P 电路 (P-circuits) 可解决的问题。Denny 认为,预训练的 LLM 本身已具备推理潜力,关键在于解码过程。他回顾了多种引发和增强 LLM 推理的方法,包括早期的链式思考 (Chain-of-Thought, CoT) 解码(选择最终答案置信度最高的候选路径)和 CoT 提示(如 few-shot 示例和 "Let's think step by step")。

随后,讲座重点讨论了监督式微调 (Supervised Fine-Tuning, SFT) 及其在泛化性上的局限,进而引出了更强大的迭代式微调 (Iterative Fine-Tuning, IFT) 或称自改进 (Self-Improve),即模型生成推理路径,通过验证器筛选正确路径后用于进一步微调自身。这种方法之所以有效,是因为它直接优化了衡量生成质量的指标。Denny 强调,LLM 的推理是从词元到词元的预测中涌现的,而非经典 AI 的显式搜索,并通过 Gemini 2.0 [原文为 gm 92.0,推测应为 Gemini 2.0 的某个版本或模式,如原文提及的 "synken mode"] 解决复杂数学问题的例子加以说明。

为进一步提升推理性能,Denny 介绍了聚合 (Aggregation) 技术,特别是自洽性 (Self-Consistency),通过对多个采样输出进行投票选择最频繁的最终答案,显著提升了准确率。此外,检索 (Retrieval) 增强推理也被提及,通过模型回忆相关问题或知识来辅助解决当前问题。Denny 总结道,有推理优于无推理,IFT 优于 SFT,聚合优于单一答案,检索加推理优于单纯推理。他展望未来,希望能解决自动可验证答案之外的任务,并构建真实的 AI 应用。

LLM 推理的定义与重要性

Denny Zhou (Speaker 2) 开篇明确了他对 LLM 推理的定义:
* 推理 (Reasoning):特指“输入和输出之间的中间令牌 (intermediate tokens),称为推理或中间步骤 (intermediate steps)”。
* 这个概念并非全新,早在 2017 年,DeepMind [原文为 Duman,推测为 DeepMind] 就有论文探讨使用中间令牌解决数学问题。
* Denny Zhou 创立 Google Brain 推理团队时,设计了“最后一个字母串联 (last letter concatenation)”任务作为激励示例,例如“artificial intelligence”的最后一个字母串联,有推理过程的模型会输出“artificial 的最后一个字母是 l,intelligence 的最后一个字母是 e,串联 l 和 e 得到 le”。
* 他强调一个核心观点:“LMs are just probability models. They are not humans.” 保持这一认知有助于理解许多新技术。

中间令牌的理论意义

  • Denny 引用了与斯坦福大学 Tamar [不确定姓氏,原文为 Tama] 教授及其学生的合作研究成果:“对于任何可由大小为 T 的 P 电路 (P-circuits) [原文为 pucircus] 解决的问题,恒定大小的 Transformer 可以通过生成 O(T) 个中间令牌来解决它。”
    • “大小 (size)”指逻辑门数量。
    • 若直接生成最终答案,要么需要巨大的深度,要么根本无法解决。
  • 这是从理论角度理解推理的方式。

预训练 LLM 的内在推理潜力与解码

Denny Zhou 反驳了一个普遍看法,即“预训练 LLM 在没有进一步提示工程(如 CoT 提示)或微调的情况下无法推理”。
* 他的观点是:“Pre-trained LMs are ready to reason, and all we need is decoding, just about decoding process.
* 示例:苹果问题
* 问题:“我有3个苹果,我爸爸比我多2个苹果,我们总共有多少个苹果?”
* 贪婪解码 (Greedy Decoding) 可能直接输出错误答案,如“5个苹果”。
* 但若查看第二个或第四个候选输出(基于第一个词元的选择),可能会发现包含正确推理过程的答案:
* 第二个候选:“I have three apples and my dad has two more apples than me. So he has five apples and three plus five to eight.” (答案正确)
* 第四个候选(以 "You" 开头)也可能展现链式思考并得到正确答案。
* 这表明“the reasoning path is already in the output space.” 问题在于如何选择最佳响应。

链式思考 (Chain-of-Thought, CoT) 解码

  • 一种选择最佳响应的方法是基于答案置信度 (answer confidence)
  • 对于包含链式思考推理的响应,最终答案词元的置信度(概率)会非常高。例如,在苹果问题中,答案词元 "eight" (8) 的模型置信度 [原文为 companies,推测为 confidence] 接近 98%。
  • CoT 解码流程
    1. 超越贪婪解码,检查更多生成候选。
    2. 选择最终答案具有最高置信度的候选。
  • Denny 认为这是一种简单但需要编程工作的方法。

通过提示工程和微调引发推理

提示工程 (Prompting Engineering)

目标是“重塑模型的输出分布,使深思熟虑的响应自然排名靠前 (reshape the model's output distribution so that thoughtful responses naturally rank first)”。
* 少样本 CoT 提示 (Few-shot Chain-of-Thought Prompting)
* 在问题前提供一个或多个类似的、包含逐步解题过程的示例。
* 模型会“神奇地”遵循这种风格生成逐步解决方案。
* 原理:“it changes the output distribution to push the original chain-of-thought solutions in the output space to the top position.
* “让我们一步一步思考 (Let's think step by step)”提示
* 一种通用提示,无需寻找相似示例。
* Denny 提到,当他尝试在 Google 的 PaLM 模型上使用这个“魔法技巧”时,发现它确实有效,令他非常震惊。
* 提示工程的缺陷
* 少样本 CoT 提示需要任务特定的示例,Denny 认为这不自然 (“If I have questions to ask someone, if I know similar problems, I can, then I can solve it by myself, right?”)。
* “Let's think step by step” 虽然通用,但“performs much worse than a few-shot prompting.
* 两种方法都显得有些“奇怪 (weird)”,不符合理想的交互方式。

监督式微调 (Supervised Fine-Tuning, SFT)

  • 思路:收集一系列问题和由人类标注者提供的逐步解决方案,然后最大化模型对这些人类解决方案的似然性。
  • 历史
    • DeepMind 2017 年的论文就采用了类似方法收集数学问题和人类标注的解题步骤。
    • OpenAI 在 2021 年进一步扩展此方法,构建了更大的数据集 GSM8K (Grade School Math problems),并用其微调 GPT-3 模型。
  • 示例:使用“最后一个字母串联”问题和答案,或苹果问题和答案作为训练数据微调模型。
  • 局限性:SFT 在推理任务上“doesn't generalize well.
    • Denny 团队在 2021 年夏天意识到此问题。
    • 他强调:“Don't scale for ently [不确定,原文为 for ently,疑为 'Don't scale blindly/indefinitely']. Once the paradigm is wrong, no matter how to scale, it doesn't work.

迭代式微调 (Iterative Fine-Tuning, IFT) / 自改进 (Self-Improve)

这是对 SFT 泛化问题的改进,Denny 团队的成员发明了此方法,最初称为“自改进 (self-improve)”。
* 核心思想:用模型生成的响应进行训练,而非人类数据。
1. 收集一系列问题。
2. 让模型生成逐步解决方案。
3. 使用验证器 (verifier)(例如,对于数学问题,可以检查最终答案是否与真实答案一致)来判断哪些模型生成的解决方案是正确的。
4. 仅使用这些被验证为正确的模型生成解决方案来微调模型(最大化正确答案的似然性)。
* 与 SFT 的关键区别:训练数据来自模型自身,而非人类。
* 论文参考:Eric [不确定姓氏]、Tony [不确定姓氏] 和 Noah [原文为 nohour,推测为 Noah] 的论文 "STaR" (Self-Taught Reasoner)。最初提出是为了节省昂贵的人类标注成本。
* 迭代过程:模型改进后,可以再次用于生成更高质量的训练数据,形成一个迭代循环。这与当前流行的 RLAIF (Reinforcement Learning from AI Feedback) 或类似微调方法思想一致。
* Denny 提到一篇字节跳动 [原文为 bdance] 研究者于 2024 年 1 月发表的关于此方法的早期学术论文,标题为 "Reasoning with Reinforced Fine-Tuning [原文为 aning]"。
* 验证器的关键性:“A reliable verifier is the most crucial in IFT.
* 为何模型生成的数据优于人类数据?
* 并非为了节省成本,而是关乎性能。
* Denny 引用机器学习第一性原理:“Directly optimize what we want.
* 我们需要优化衡量生成质量的指标(如数学问题的正确性、机器翻译的 BLEU 分数)。
* 通过计算该指标的梯度并进行反向传播(策略梯度)。
* Denny 不喜欢用“激励模型去思考”这类说法,而是坚持标准机器学习术语:“定义你的指标,计算梯度,进行反向传播,仅此而已。”
* 扩展性 (Scaling):对于 IFT 方法,通常扩展的是“output length, or scaled length of CoT”,而非必须扩展模型深度或大小。理论上,只要 CoT 足够长,模型就能解决几乎所有可计算问题。

LLM 推理的本质:涌现而非搜索

Denny 强调 LLM 推理的美妙之处:“Human-like reasoning process emerges from token-to-token prediction rather than relying on explicit search as in classical AI.
* 他引用了卡斯帕罗夫在 1997 年输给深蓝后的评论:“深蓝的智能就像你的可编程闹钟一样智能。” Denny 同意此评论,但认为 LLM 推理是不同的,不进行显式搜索。
* 示例:Gemini 2.0 [原文为 gm 92.0,推测应为 Gemini 2.0 的某个版本或模式,如原文提及的 "synken mode"] 模型解决数学难题
* 问题(2024年12月测试,确保不在训练集中):“使用数字1到10(每个数字用一次)以及基本运算(加、乘)来组成2025。”
* 模型生成的思考过程(非搜索):
* “这是一个相对较大的数字,表明乘法将被大量使用。”
* “值得注意的是,2025 是 45 的平方 (45 * 45)。” (Denny 表示他出题时都未意识到这点)
* 模型思考如何获得大的中间乘积,目标是接近 2025 的平方根 45。
* 最终模型给出了正确解法,如 (10 * 4 + 5) * (其他数字组合成的45) = 45 * 45 = 2025。
* 这比 CoT 提示论文中提到的 Game 24 问题(结合搜索与提示解决)更难,但模型仅通过自然语言推理解决。
* Denny 再次引用 Richard Sutton 的“The Bitter Lesson”:“构建所有发现只会使其更难看到发现过程是如何完成的。” Sutton 认为学习和搜索是可扩展的,但 Denny 在此更强调“learning is scalable”。

IFT 的局限性

  • IFT 的一大优势是泛化性好,但其主要局限在于“for automatically verifiable tasks”,因为循环中需要验证器。
  • 对于非自动可验证的任务(如创意写作、日常编程工作的代码设计和可维护性),IFT 难以直接应用。

进一步提升推理性能的高级技术

Denny 讨论了两种进一步改进推理过程的关键思路:聚合 (Aggregation)检索 (Retrieval)

聚合:自洽性 (Self-Consistency)

  • 问题背景:LLM 是概率模型。标准的逐步生成推理词元然后生成最终答案的解码过程(如贪婪解码)是在最大化 P(推理路径, 答案 | 问题)。然而,我们真正关心的是最大化 P(答案 | 问题)。
  • 数学原理:边缘化 (Marginalization)
    • 需要对所有可能的推理路径求和(或积分)来得到最终答案的概率。
    • 推理路径本质上是潜变量 (latent variables)。
  • 实现方法:自洽性 (Self-Consistency)
    1. 通过随机采样生成多个响应(包含推理过程和最终答案)。
    2. 选择出现最频繁的最终答案
    3. We don't look at the reasoning path, we only choose the most frequent answer, not most frequently reasoning path. That's the trick.
  • 显著的性能提升
    • GSM8K 数据集上的数据
      • 微调的 GPT-3 [原文为 funtunon three] 模型:约 33% [原文为 galaxthirty 3%] 准确率。
      • OpenAI 使用验证器:55% 准确率。
      • PaLM [原文为 part model] 模型 + CoT:58% 准确率。
      • 应用自洽性后,PaLM + CoT 准确率跃升至 75% (相对提升近 50%)。
      • PaLM 2 [原文为 upalm two] 甚至达到 92% 准确率。
    • 即使是较新的模型(如 OpenAI 的某模型,Denny 提到可能去年10月发布),应用自洽性后仍有显著提升。
  • 特性
    • 使用更多样本会更昂贵(增加推理时间)。
    • 自洽性具有自校准 (self-calibrated) 特性:更高的一致性通常意味着更高的准确率。在 GSM8K 上,当自洽性超过 80% 时,准确率接近 100%。
  • 重要区分
    • 如果 LLM 直接输出答案而无中间步骤,则无需多次采样选最常见答案,直接最大化该答案的概率即可(经典机器学习做法)。自洽性主要用于带推理过程的 LLM。
    • 让 LLM 一次性生成多个不同答案,与多次独立采样然后选最常见答案,在原理上(最大边缘推理 Max Marginal Inference)是相通的。
  • 通用自洽性 (Universal Self-Consistency):对于答案非单一词元或更复杂的情况(如列出亚洲国家),让 LLM 自行判断哪个生成的复杂答案与其他答案最为一致。

检索 (Retrieval)

  • Denny 表示对“检索 vs 推理”的辩论不感兴趣,更关注实际性能:“To me, you know, just to retrieve a plus reasoning, why I should do the debate, right?
  • 示例 1:类比推理 (Analogy Reasoning) (2024年论文)
    • 问题:“一个正方形四个顶点的坐标为...求面积?”
    • 在没有提示的情况下,GPT-3.5 和 Google 自己的模型都失败了。
    • 加入提示:“Recall a related problem and then solve this one.
    • 模型回忆起相关问题:“在坐标平面上找到两点之间的距离”及其公式。
    • 然后模型成功计算出距离并求出面积。
  • 示例 2:“退一步思考 (Step Back)”提示
    • 对于物理问题,在解决前提示模型“退一步思考更抽象的问题,获取原理,然后再解决它。”
  • 与“深度研究 (Deep Research)”的联系:Denny 提到 DeepMind [原文为 gynadeeper research] 和 OpenAI [原文为 open a deeper research] 都有类似“深度研究”的概念,其核心思想也是通过找到相似问题或知识来解决当前问题。

总结与未来展望

Denny Zhou 的核心观点总结:

  1. 有推理总是优于无推理 (Reasoning is always better than no reasoning)。
  2. 迭代式微调 (IFT) 优于监督式微调 (SFT) (IFT is better than SFT)。
  3. 聚合多个答案优于单个答案 (Aggregating multiple answers is better than one answer),尽管成本更高。
  4. 检索 + 推理优于仅推理 (Retrieval plus reasoning is better than reasoning only)。

未来的突破方向:

  • 解决超出唯一可验证答案的任务 (How to solve the task beyond unique verifiable answers)。
  • 构建真实的应用程序,而不仅仅是解决基准测试 (Build real applications instead of just solving benchmarks)。 Denny 认为所有基准测试很快都会饱和。

Denny 最后引用了理查德·费曼 (Richard Feynman) 的话:“The truth always turned out to be simpler than you thought.” 他认为这在 AI 研究中尤其重要,许多学术论文倾向于复杂的方案,而他试图让讲座尽可能简单,因为事实确实如此。

问答环节 (Q&A)

  • 关于置信度与幻觉 (Confidence and Hallucinations) (Speaker 3 提问):
    • Denny (Speaker 2) 回应,他所说的置信度是指模型对下一个词元预测的条件概率(log probabilities)。
    • 经验观察表明,在推理路径之后,最终答案的置信度会有巨大提升,这可能有助于识别幻觉。
  • 关于搜索的必要性 (Necessity of Search) (Speaker 3 提问):
    • Denny (Speaker 2) 澄清,在构建模型时,不必考虑搜索,但模型构建完成后,可以将搜索作为一种工具使用(如 Tree of Thoughts Prompting [原文为 twelve sword prompting,推测为 Tree of Thoughts] 结合符号搜索)。他个人在推理研究中更关注基础能力。模型可以被激励去写代码通过搜索解决问题,但推理过程本身不需要搜索。
  • 无推理时采样与直接看 Logits 的区别 (Sampling vs. Logits without reasoning) (Speaker 3 提问):
    • Denny (Speaker 2) 承认,训练阶段输出分布如何形成尚不完全清楚,因此难以确切回答,目前没有很好的解释。
  • 区分推理和答案,特别是当答案是程序时 (Differentiating reasoning and answer, especially if answer is a program) (Speaker 3 提问):
    • Denny (Speaker 2) 表示,如果答案是程序,提取会更困难。这就是为什么 IFT 通常用于数学问题或竞争性编程问题。对于一般情况,需要非常仔细的解析器来提取最终答案。
  • 当低置信度答案反而是正确答案时,如何使用自洽性 (Low confidence answer being correct and self-consistency) (Speaker 3 提问):
    • Denny (Speaker 2) 承认自洽性并非完美。
  • 关于 AGI 时间线和未来技能培养 (AGI timeline and future skills for kids) (Speaker 3 提问):
    • Denny (Speaker 2) 对“AGI 五年内到来”的说法表示怀疑。他提到去年在某会议 [原文为 I clear red last year,推测为某AI顶会如ICML/NeurIPS等] 的一个研讨会上,他担心的不是 AI 风险,而是“AI winter comes back and I then now lost my job.
    • 他看到了当前方法的许多局限性,并希望看到来自当前 AI 研究的真实“杀手级应用 (killer applications)”,而不仅仅是娱乐。
    • 他认为 AI 模型在编程方面确实很好,可以作为编码助手,但对其他方面尚不确定。他表示“我们应该还好 (We should be fine)”。

评审反馈

总体评价

当前总结质量非常高,准确、全面地再现了讲座的核心内容、关键论点、示例及问答环节,并出色地处理了转录文本中的多处错误和不清晰之处。结构清晰,语言专业。

具体问题及建议

  1. 事实准确性(元数据层面)
    • 问题描述:提供的“审核资料”中,“当前总结”的标题和描述部分存在与讲座内容和转录文本不一致的信息:
      • 描述中的观看次数和日期(“7,694次观看 2025年5月22日”)与讲座日期(“April 29, 2025”)在时间上存在矛盾(观看数据统计于未来)。
      • 描述中包含两位演讲者信息(Denny Zhou 和 Hongyu Ren),但转录文本显示 Hongyu Ren (speaker 1) 仅为主持人,Denny Zhou (speaker 2) 为主讲人。当前总结正确地聚焦于 Denny Zhou 的演讲内容,但原始元数据可能引起混淆。
    • 修改建议:虽然这不是对“当前总结”内容本身的直接批评,但在实际应用中,应确保元数据的准确性与一致性。建议核查并修正原始描述中的日期和演讲者角色信息,使其与实际情况(讲座日期 April 29, 2025,主讲人 Denny Zhou)相符。
  2. 事实准确性(总结内容细节)
    • 问题描述:在“LLM 推理的本质:涌现而非搜索”部分的 Gemini 示例中,总结提到“[原文为 gm 92.0,应为 Gemini 2.0] Synapse [不确定,疑为内部代号或特定模式] 模型”。转录文本为 "gm 92.0 synken mode"。总结对 "gm 92.0" 的修正和对 "Synapse" 的不确定性标注是恰当的。
    • 修改建议:无需修改,总结处理得当。这体现了总结在处理模糊转录方面的优秀能力。
  3. 事实准确性(Q&A部分细节)
    • 问题描述:在问答环节,总结提到“他提到去年在 ICLR [应为 ICML 或 NeurIPS 等会议,ICLR 通常在春季] 的一个研讨会上”。转录文本为 "I clear red last year"。总结对 "I clear red" 的推测(ICLR)并标注其会议时间特性是合理的。
    • 修改建议:无需修改,总结处理得当,展现了良好的推断和背景知识。
  4. 完整性与准确性(数据引用)
    • 问题描述:在“聚合:自洽性 (Self-Consistency)”部分,GSM8K 数据集上的准确率数据,例如“微调的 GPT-3 模型:约 33%”,源自转录文本“even for funtunon three models, they used the galaxthirty 3%”。总结对模糊转录的解读(“funtunon three” -> GPT-3,“galaxthirty 3%” -> 约33%)是合理的。
    • 修改建议:无需修改,总结对数据的处理在转录质量限制下已做到最佳。

优化方向

  1. 保持高标准:当前总结在准确性、完整性和清晰度方面均表现出色,尤其是在处理有噪声的转录文本时。后续应继续保持这种高标准的处理能力。
  2. 元数据校对流程:虽然不直接属于总结内容,但鉴于元数据对内容发现和理解的重要性,建议在内容生产流程中加入对源材料元数据(如标题、描述、演讲者信息)的校对环节,确保其准确无误。
  3. 对不确定信息的处理:当前总结通过方括号标注不确定或修正的内容(如“[不确定姓氏,原文为 Tama]”、“[原文为 gm 92.0,应为 Gemini 2.0]”)是非常好的实践,建议继续沿用,这增加了总结的透明度和可信度。