详细摘要 摘要

生成:2025-05-23 13:07

摘要详情

音频文件
CS 194⧸294-196 (LLM Agents) - Lecture 2, Shunyu Yao
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-exp-03-25
已创建
2025-05-23 13:07:10

概览/核心摘要 (Executive Summary)

本讲座由讲者Shunyu Yao(音“师”)主讲,主题为大型语言模型(LLM)智能体(Agents)的简史与概述。讲座首先定义了智能体及LLM智能体的概念,将其划分为文本智能体、LLM智能体和核心的“推理智能体”(Reasoning Agent)——即利用LLM进行推理以指导行动的智能体。随后,讲座回顾了LLM智能体的发展历程,从早期基于规则和强化学习的文本智能体,到LLM出现后在问答(QA)等任务上的应用,强调了“推理”与“行动”两大范式的融合,并重点介绍了ReAct框架。ReAct通过让LLM交替生成“思考”(thought)和“行动”(action),有效结合了LLM的推理能力与外部工具/环境的交互能力,显著提升了任务解决能力和鲁棒性。讲座进一步探讨了长时记忆对智能体的重要性,通过“反思”(Reflection)等机制使智能体能从经验中学习并持续改进。讲座还将LLM智能体置于更广阔的智能体发展史中,指出其核心区别在于使用自然语言作为中间表征进行思考和决策,赋予了其前所未有的通用性和灵活性。应用方面,LLM智能体已从传统的QA、游戏扩展到数字自动化(如软件工程、网页交互)乃至科学发现等复杂领域。最后,讲座展望了LLM智能体的未来研究方向,包括针对智能体的模型训练、智能体接口设计、鲁棒性人机协同、以及更符合实际需求的基准测试

什么是LLM智能体?

  • 智能体的定义:一个能够与某种环境交互的智能系统。
    • 环境类型:物理环境(如机器人、自动驾驶汽车)、数字环境(如视频游戏、iPhone应用)、人类环境(如聊天机器人)。
    • “智能”的定义随时代发展而变化。
  • LLM智能体的三个层次概念
    1. 文本智能体 (Text Agent):智能体与环境的交互(行动和观察)均通过文本语言进行。这类智能体在LLM出现前就已存在数十年。
    2. LLM智能体 (LLM Agent):使用大型语言模型(LLM)进行行动的文本智能体。
    3. 推理智能体 (Reasoning Agent):核心概念,指利用LLM进行推理以指导行动的智能体。讲者认为这是与以往智能体范式最显著的区别。

LLM智能体简史

  • LLM出现前的文本智能体
    • 基于规则的智能体
      • 例如1960年代的ELIZA聊天机器人,通过预设规则与用户交互,能产生一定程度的“类人”对话效果。
      • 局限性:规则通常是任务特定的,难以泛化到新领域,且在复杂领域效果不佳。
    • 基于强化学习(RL)的智能体
      • 应用于文本游戏中,通过优化奖励信号学习策略。
      • 局限性:领域特定,需要明确的奖励信号,训练成本高。
  • LLM带来的变革
    • LLM(如GPT-3,讲者提及时间点为2020年)通过在海量文本上进行下一词预测训练,获得了强大的通用性和少样本学习能力,为构建智能体带来了新机遇。
  • LLM智能体的发展脉络(简化视角)
    1. LLM出现后,研究者开始探索其在不同任务上的应用,包括推理任务(如符号问答)和行动任务(如游戏、机器人)。
    2. “推理”范式和“行动”范式逐渐融合,催生了“推理智能体”。
    3. 在推理智能体框架下,进一步探索了更广泛的应用(如网页交互、软件工程、科学发现)和新方法(如记忆、学习、规划、多智能体)。
  • 以问答(QA)任务为例看发展
    • LLM直接回答复杂问题时面临挑战:
      • 缺乏推理能力:例如,多步计算问题。
      • 知识陈旧或缺失:例如,英国首相这类频繁变化的信息。
      • 计算能力不足:例如,复杂的数学运算。
    • 针对性解决方案:
      • 程序生成:LLM生成代码,由外部解释器执行以完成计算。
      • 检索增强生成 (RAG):通过检索器从外部知识库(如维基百科)获取相关信息,辅助LLM回答。局限:依赖现有知识库,无法获取实时信息(如“今天旧金山的天气”)。
      • 工具使用 (Tool Use):LLM生成特殊指令(token)调用外部工具(如计算器、搜索引擎、天气API)。局限:格式不自然,微调困难,难以多次调用。
    • 当任务同时需要推理和知识/工具时,早期解决方案显得“零散”和“针对特定基准”。
  • ReAct框架:推理与行动的协同
    • 核心思想:将“推理”(如思维链,Chain of Thought)和“行动”(与外部环境/工具交互)两个范式结合起来。LLM交替生成思考(thought)行动(action)
      • 推理的优势:提供“测试时计算”和更长时间思考的能力,解决复杂问题。局限:缺乏外部知识和工具。
      • 行动的优势:通过与环境交互获取知识、执行计算、获得反馈。局限:缺乏规划和适应能力。
    • 工作流程
      1. 通过提示(prompt)提供任务解决的示例轨迹(包含思考、行动、观察)。
      2. LLM根据当前情境生成一个“思考”(内在推理过程)和一个“行动”(如调用搜索API)。
      3. 行动被解析并送至外部环境执行,返回一个“观察”(结果)。
      4. 思考、行动、观察被追加到LLM的上下文中。
      5. LLM基于更新的上下文生成新的思考和行动,循环直至任务完成。
    • 示例:回答“我有7万亿美元,能买下苹果、英伟达和微软吗?”(讲者提及幻灯片制作于2024年3月)
      • LLM首先思考需要查询各公司市值并相加,然后执行搜索行动。
      • 若搜索顺利,则进行计算并得出结论。
      • 若搜索不顺(如返回“未找到结果”),LLM能通过推理调整计划(如改为分别搜索各公司市值)。
      • 若搜索结果不直接(如返回股价而非市值),LLM能推理出需要“股价 * 股本数 = 市值”。
    • ReAct的优势
      • 协同增效:“推理帮助行动”(规划、调整策略),“行动帮助推理”(提供信息、验证假设)。
      • 通用性:超越QA,可应用于任何能转化为“文本游戏”的任务(如通过图像/视频描述将视觉任务文本化)。
      • 提升鲁棒性:面对意外情况(如工具失效、信息不全)时,能通过推理调整策略。
    • 与纯行动LLM对比:在没有“思考”步骤的情况下,LLM仅做观察到行动的映射,难以处理未见过的领域或从失败中恢复(如在游戏中找不到“胡椒瓶”会持续尝试错误动作)。ReAct通过引入“思考”这一特殊行动,使智能体能规划、跟踪状态、从错误中学习。
    • 推理智能体的本质区别:推理是一种内部行动,其行动空间是无限的语言空间,它不直接改变外部世界,而是改变智能体自身的上下文(记忆),进而影响后续行动。

长时记忆 (Long-Term Memory)

  • 动机:LLM的上下文窗口(context window)可视为一种短时记忆,存在局限:
    • 仅能追加(append-only)。
    • 容量有限(即使达到百万甚至千万token,注意力也可能受限)。
    • 非持久性:无法跨任务或跨时间保存学习到的知识和经验(“像只有3秒记忆的金鱼”)。
  • 长时记忆的概念:类似人类的日记,用于存储和读取重要的经验、知识和技能,以期在未来任务中复用和改进。
  • “反思” (Reflection) 机制:一种简单的长时记忆实现。
    • 示例(编程任务):智能体编写代码,测试失败。
    • 反思过程:智能体分析失败原因(“我忘了这个边界条件”),并将此反思存入长时记忆。
    • 应用:下次执行类似任务时,读取长时记忆中的反思,避免重复犯错。
    • 一种新的学习方式:非基于标量奖励的梯度下降,而是通过更新语言形式的记忆(如对任务知识、失败经验的总结)来学习。
  • 更复杂的长时记忆形式
    • Voyager:记忆代码化的技能和想法(如在Minecraft中学会“如何制造一把剑”)。
    • 生成式智能体 (Generative Agents)
      • 情景记忆 (Episodic Memory):记录每个智能体每小时发生的事件日志。
      • 语义记忆 (Semantic Memory):从事件日志中提炼总结,形成对他人和自身的认知(如“约翰是个好奇的人”)。
  • LLM参数与外部文本均可视为长时记忆
    • 通过微调模型参数改变智能体行为。
    • 通过将知识/经验写入可检索的文本(长时记忆库)来改变行为。
  • Koala论文观点:任何智能体都可被抽象为三要素:记忆(信息存储)、行动空间(能做什么)、决策过程(如何选择行动)。
  • 引申思考
    1. 对数字智能体而言,如何区分外部环境与内部记忆?(例如,智能体在Google Docs中写东西是长时记忆还是与环境交互?)
    2. 如何界定长时记忆与短时记忆?(例如,一个拥有1000万token上下文窗口的LLM是否算拥有长时记忆?)

LLM智能体在更广阔的智能体历史中的定位

  • 智能体发展简史(极简版,讲者强调其不严谨性)
    1. 符号AI智能体:基于规则编程,如专家系统。
    2. (AI寒冬)
    3. 深度强化学习(Deep RL)智能体:通过神经网络处理观察并输出行动,如Atari游戏、AlphaGo。
    4. LLM智能体:近期发展。
  • 核心区别:处理“观察到行动”的中间表征
    • 符号AI:观察 -> 符号状态(如逻辑表达式) -> 行动。
    • Deep RL:观察(像素、文本等) -> 嵌入向量/矩阵(通过神经网络处理) -> 行动。
    • LLM/推理智能体:观察 -> 自然语言(作为中间思考过程) -> 行动。
  • LLM智能体的优势
    • 丰富的先验知识:LLM本身预训练在海量数据上,易于通过提示(prompting)构建。
    • 通用性:语言可以描述和推理各种任务。
    • 灵活的思考长度:可以进行任意长度的语言思考(“in-time speed” [原文如此,可能指推理时计算的灵活性]),而符号状态和向量大小通常固定。
    • 这使得推理智能体与以往范式有根本性不同

LLM智能体带来的新应用与任务

  • 超越传统NLP和RL任务(如问答、游戏)。
  • 数字自动化 (Digital Automation)
    • 例如:帮助处理报销、编写和调试代码、查找和审阅论文等。
    • 以往进展缓慢(如Siri功能有限)的原因:缺乏对真实世界语言的深度理解和长程规划决策能力。
  • 更实用和可扩展的任务基准
    • 以往的智能体基准通常是“人工合成的、小规模的、不实用的”。
    • WebShop (2021-2022):模拟在线购物任务。智能体需浏览网页、点击链接、搜索商品、选择定制选项并购买。基于大规模真实互联网数据(百万级亚马逊商品)。比传统网格世界任务更复杂,涉及图像、语言理解和长程决策。
    • SWE-bench (Software Engineering benchmark):给定GitHub仓库和issue,智能体需生成代码补丁以解决问题。涉及与代码库、单元测试的交互。
    • 科学发现 (Scientific Discovery)
      • ChemCrow示例:使用LLM智能体发现新的发色团(chromophores)。智能体分析化学数据,使用Python、互联网等工具,提出新的化学物质建议。这些建议随后在湿实验室(wet lab)中合成验证,并反馈给智能体。实现了数字世界与物理世界的结合。
  • LLM智能体不仅能处理繁琐任务,也能参与更具智能和创造性的任务。

研究经验与教训

  • 简单即通用:一些最重要的工作(如思维链、ReAct)往往非常简单。简单意味着通用性强。
  • 追求简单的挑战:需要同时具备抽象思维能力(跳出具体任务和数据点,进行高层次思考)和对细节的熟悉(深入理解任务、数据和问题)。
  • 历史与跨学科知识的价值:学习历史和其他学科有助于建立抽象思维框架。

LLM智能体的未来方向(五个关键词)

讲者认为这些方向新颖、有潜力产生基础性成果,且适合学术界研究。

  1. 训练 (Training)
    • 现状:LLM模型训练与智能体构建在一定程度上是分离的。现有LLM并非专门为智能体任务训练。
    • 问题:数据偏差导致性能非最优。
    • 解决方案:训练面向智能体的模型。可以利用现有(通过提示构建的)智能体生成大量智能体特有的交互数据(如思考过程、行动序列、自我评估,这些数据在互联网上稀缺),然后用这些数据微调LLM。
    • 意义:有望解决互联网数据耗尽后的模型训练数据来源问题。类比GPU与深度学习的协同发展:GPU最初为游戏设计,后被发现适用于深度学习,进而催生了为深度学习优化的GPU。
  2. 接口 (Interface - HCI for Agents)
    • 核心思想:如果难以优化智能体本身,可以优化其交互环境
    • 类比:同一个程序员在简单文本编辑器和VS Code中编写代码的效率不同。
    • 示例(智能体在操作系统中搜索文件)
      • 人类常用:ls, cd等命令行。
      • 智能体接口探索(Tree-Agent研究):发现让智能体一次性看到多个(如10个)搜索结果,并自行判断哪个最相关,比逐条展示更有效。
    • 原因:模型与人类在信息处理能力(如短时记忆容量)上存在差异。人类界面设计需考虑直观性(如Ctrl+F一次显示一个匹配项),而模型可能受益于一次性获取更多信息(因其上下文窗口更大)。
    • 意义:设计更好的智能体接口不仅能提升任务性能,还有助于理解智能体的工作方式及人与模型的根本差异。
  3. 鲁棒性 (Robustness) & 4. 人在回路 (Human-in-the-Loop)
    • 现状与问题:现有基准(如编程任务中的Pass@k指标,即尝试k次至少成功一次)与真实世界需求存在巨大差异。
    • 真实世界需求:许多任务(如客户服务)更关注鲁棒性,即“在1000次尝试中成功1000次”,一次失败就可能导致严重后果。
    • 新基准测试需求
      • ToolTalk (近期工作):面向实际的客户服务任务。智能体不仅与后端API交互,还与模拟人类用户进行多轮对话(用户可能不会一次性提供所有信息,智能体需要主动询问和引导)。
      • 新评估指标:除了Pass@k,更关注在多次重复试验中始终成功的概率。当前LLM(无论大小)在该指标下表现为:采样次数越多,始终成功的概率反而下降。理想趋势应更为平坦。
    • 意义:需要在基准测试中引入更多真实世界元素,包括新的交互设置和评估指标。
  4. 基准测试 (Benchmark) (已在鲁棒性与人在回路中部分覆盖)
    • 思考智能体能替代哪些工作,为什么目前还不能替代,缺失什么,如何改进。
    • 未来智能体可能面临的任务类型:
      • 对鲁棒性要求高,但智能要求不极致的任务(如简单调试、客户服务)。
      • 需要与人类协作的任务。
      • 高难度、探索性任务(如从零撰写综述、发现新化学物质)。

结论与预告

  • 讲者提及将在EMNLP([不确定],原文为eml up)举办一个关于语言智能体的更全面的3小时教程(2025年11月)。
  • 讲座提供了二维码供听众反馈([原文如此] "qr code")。