2025-02-05 | Agentic AI: A Progression of Language Model Usage

Detailed Summary 摘要

生成：2025-06-06 20:22

摘要详情

音频文件: 2025-02-05 | Agentic AI: A Progression of Language Model Usage
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
创建时间: 2025-06-06 20:22:27

摘要内容

概览/核心摘要 (Executive Summary)

本次演讲由GitHub Next的首席机器学习研究员Insop Song主讲，系统阐述了智能体AI（Agentic AI）作为语言模型（LM）用法演进的下一阶段。核心观点是，智能体AI通过赋予语言模型推理（Reasoning）和行动（Action）的能力，极大地扩展了其应用边界，使其能够处理传统LM无法完成的复杂、多步骤任务。

演讲首先回顾了语言模型的基础，包括其通过预训练和指令微调（Instruction Tuning）、RLHF等后训练阶段获得强大的文本生成能力。随后，指出了LM的普遍局限性，如幻觉（Hallucination）、知识截止、缺乏溯源等，并介绍了两种关键解决方案：检索增强生成（RAG）和工具使用（Tool Usage）/函数调用。RAG通过引入外部知识库来提高事实准确性，而工具使用则允许LM与API、数据库等外部系统交互。

智能体AI正是将这些能力系统化，其核心在于一个迭代循环：LM首先进行规划，将复杂任务分解为小步骤；然后通过调用工具来执行这些步骤（行动），并从外部环境中获取观察结果；最后，LM对结果进行反思和推理，更新其记忆和下一步计划，直至任务完成。演讲重点介绍了四种关键的智能体设计模式：规划（Planning）、反思（Reflection）、工具使用（Tool Usage）和多智能体协作（Multi-Agent Collaboration）。这些模式的组合应用，使得AI能够自主完成研究分析、软件开发、客户支持等复杂工作流。最后，演讲者建议开发者从简单的应用入手，通过实验和快速迭代来逐步构建和优化智能体系统。

语言模型（LM）基础与应用

模型定义与训练

基本定义: 语言模型是一种预测给定文本后下一个最可能出现的词的机器学习模型。
训练过程:
1. 预训练 (Pre-training): 在海量的互联网文本、书籍等语料库上进行训练，目标是预测下一个词（Next Token Prediction）。此阶段的模型具备广泛的世界知识，但直接使用较为困难。
2. 后训练 (Post-training):
  - 指令遵循训练 (Instruction Following Training): 使用“指令-期望输出”格式的数据对模型进行微调，使其能更好地理解和响应用户指令。
  - 基于人类反馈的强化学习 (RLHF): 利用人类偏好数据，通过奖励机制对模型进行对齐，使其输出更符合人类期望的风格和价值观。

主要应用领域

AI编程助手 (AI coding assistance)
领域特定的AI副驾驶 (Domain-specific AI copilots)
对话式接口，如ChatGPT

使用方式

API调用: 通过云服务商提供的API来使用模型。
本地部署: 对于足够小的模型，可以将其部署在本地机器甚至移动设备上。

高效使用语言模型的最佳实践：提示工程

构建高质量的输入提示（Prompt）对于引导模型生成期望的输出至关重要。以下是关键的最佳实践：
* 清晰具体的指令: 避免模糊请求，详细描述任务要求。演讲者强调：> "模型无法读懂你的心思（model cannot read your mind），你需要详细描述你希望模型为你生成什么样的输出。"
* 提供少量示例 (Few-shot Examples): 给出输入和期望输出的范例，帮助模型学习所需的格式或风格。
* 提供相关上下文与参考: 为减少模型产生不正确信息（即“幻觉”），可以提供相关的背景资料或参考文章，并要求模型基于这些信息回答。这是检索增强生成（RAG）的核心思想。
* 给予模型“思考时间”: 不要直接要求答案，而是引导模型先进行推理。例如，使用思维链 (Chain-of-Thought)提示，要求模型“首先制定自己的解决方案，然后将其与学生的方案进行比较”。
* 分解复杂任务: 将一个包含多个子任务的复杂请求，分解为一系列简单的、连续的提示，逐步完成。
* 系统化追踪与评估:
* 建立良好的日志和追踪系统，便于调试和审计。
* 尽早建立自动化评估流程，使用基准问答对（Ground Truth）来衡量模型表现。可以使用LM作为评判者 (LM as a Judge)来辅助评估，以应对模型和方法的快速迭代。
* 使用提示路由 (Prompt Router): 根据用户查询的意图，将其分发给不同的、更专业的提示处理器或模型，以优化成本和输出质量。

语言模型的局限性与核心解决方案

常见局限性

幻觉 (Hallucination): 生成不正确或捏造的信息。
知识截止 (Knowledge Cutoff): 模型知识停留在其训练数据收集的截止日期，无法获取最新信息。
缺乏溯源 (Lack of Attribution): 无法说明其答案的信息来源。
数据隐私 (Data Privacy): 模型未在组织的专有数据上训练。
上下文长度有限 (Limited Context Length): 更长的上下文会带来更高的运营成本和延迟。

解决方案一：检索增强生成（RAG）

工作原理:
1. 预处理: 将私有文档或知识库切分成小块（chunks），通过嵌入模型（Embedding Model）转换为向量，并存入向量数据库。
2. 查询时: 将用户查询也转换为向量，在数据库中进行相似性搜索，找到最相关的K个文本块。
3. 增强提示: 将这些检索到的文本块作为上下文，与原始查询一同注入提示中，要求模型基于此上下文进行回答。
核心优势:
- 通过提供事实依据，显著减少幻觉。
- 能够为答案提供引用和来源。
- 允许模型安全地使用私有或专有数据。
- 高效利用有限的上下文窗口。

解决方案二：工具使用与函数调用

核心概念: 赋予语言模型执行外部操作或从外部世界提取信息的能力。
工作原理:
1. 当用户提出需要外部信息（如实时天气）或计算的请求时，模型会生成一个结构化的输出，通常是API调用的格式。
2. 例如，对于“旧金山的天气如何？”的提问，模型可能输出：get_weather(location='San Francisco')。
3. 外部的软件层解析此输出，实际执行API调用，获取天气数据。
4. 将API返回的结果再提供给模型，模型最终生成一段自然、友好的回答。
5. 模型也可以生成可执行的代码（如Python），在沙盒环境中运行。

智能体AI（Agentic AI）的核心理念

智能体的定义

智能体AI系统以语言模型为核心，但超越了简单的文本输入输出。它可以与环境（Environment）进行交互，通过工具使用或信息检索来行动，并将外部反馈作为观察（Observation）输入给模型，同时将交互历史存入记忆（Memory）。

核心能力：推理与行动（ReAct）

智能体AI的关键在于结合了推理（Reasoning）和行动（Action）：
* 推理: 模型首先分析任务，将其分解为更小的、可执行的步骤，并制定一个计划。这可以通过思维链等提示技巧来激发。
* 行动: 模型根据计划，通过调用工具（如RAG、搜索引擎、计算器、API）来收集信息或执行操作。

工作流程与优势

智能体通过一个迭代循环来完成复杂任务：规划 -> 行动 -> 观察 -> 推理 -> 更新规划。

"通过结合推理和行动，模型可以完成比简单的输入输出交互复杂得多的任务。"
这种模式的优势在于，即使是同一个语言模型，在智能体框架下也能解决它在单次直接请求中无法处理的复杂问题，从而“推动了AI能力的边界”。

智能体AI的关键设计模式

规划 (Planning): 这是智能体工作流的起点。要求模型将复杂任务分解为一系列清晰的子任务，为后续的工具调用做准备。
反思 (Reflection): 一种自我纠错和迭代改进的模式。让模型生成一个初步输出后，再调用一次模型（或使用不同提示）来批判和评估该输出，并利用反馈来生成更优的结果。
- 示例 - 代码重构:
  1. 第一步: 要求模型“检查这段代码并提供建设性的反馈”。
  2. 第二步: 将原始代码和模型生成的反馈一起提供给模型，要求它“根据反馈重构代码”。
工具使用 (Tool Usage): (如前所述) 与外部API、数据库、代码执行环境等进行交互，获取实时信息或执行具体操作。
多智能体协作 (Multi-Agent Collaboration): 将一个复杂任务分解，分配给多个具有不同“角色”或“专长”的智能体。每个智能体可以通过特定的提示（Persona）来定义其角色，并协同工作。
- 示例 - 智能家居自动化: 可以创建“气候控制智能体”、“灯光控制智能体”等，它们各自处理特定领域的任务，并通过一个协调器进行交互。

问答环节（Q&A）精选洞察

智能体评估策略: 传统的“LM作为评判者”方法可以被“智能体式评判 (Agentic Judging)”所增强。可以采用反思模式，让一个LM评判后，再让另一个LM（或以“高级工程师”身份）来审查前者的评判，从而获得更可靠的评估结果。
伦理考量与安全护栏: 幻觉因其概率生成特性而难以根除。应用开发者应建立“护栏 (Guardrails)”，例如使用一个小型分类器或LM来审查输入查询和模型输出，以过滤不当或有害内容。
入门建议: 演讲者建议“从简单开始，进行实验，然后迭代”。
1. 首先在模型提供商的Playground环境中快速试验提示。
2. 熟悉后再通过API进行编程调用，以建立对模型行为的直观理解。
3. 在积累了实践经验后，再决定是否采用更复杂的智能体框架或库。

结论

智能体AI是语言模型应用的自然演进和强大扩展。它并非取代了提示工程等基础实践，而是在其之上构建了更复杂的工作流。通过将语言模型定位为核心的“推理引擎”或“聪明的实习生”，并赋予其使用工具与外部世界交互的能力，智能体AI能够以结构化的方式（如规划、反思）解决以往无法企及的复杂、多步骤问题。

返回音频媒体