详细摘要 摘要
生成:2025-06-11 14:55摘要详情
- 音频文件
- 2025-04-24 | Anthropic | Lessons on AI agents from Claude Plays Pokemon
- 摘要类型
- 详细摘要
- LLM 提供商
- openai
- LLM 模型
- gemini-2.5-pro-preview-06-05
- 温度
- 0.5
- 已创建
- 2025-06-11 14:55:27
摘要内容
概览/核心摘要 (Executive Summary)
本次讨论深入探讨了“Claude玩宝可梦”(Claude Plays Pokémon)这一AI智能体实验的背后故事、技术实现、模型演进及深远意义。该实验由Anthropic的应用AI团队成员David Hershey主导,旨在通过让Claude模型玩《宝可梦 红》这款经典游戏,测试和评估其在复杂、长周期任务中的智能体(Agentic)能力。实验的核心发现是,尽管Claude的视觉识别能力(理解游戏画面)改进不大,但其在策略制定、计划调整、从失败中学习和多步骤推理方面的能力随着模型版本迭代(从3.5 Sonnet到3.7 Sonnet)取得了“天壤之别”的进步。
技术上,Claude通过一个“工具”集与游戏模拟器交互,该工具集允许其执行按键操作,并通过接收游戏截图作为反馈来决定下一步行动。为解决模型有限的上下文窗口问题,开发了一套长期记忆系统:一个外部“知识库”用于存储关键信息和目标,同时结合对短期行为的周期性“总结”,以防止模型“失忆”。
实验中出现了许多有趣的失败案例,如将门垫误认为对话框并连续按键8小时,或在离洞口仅几步之遥时使用“逃生绳”返回起点。这些失败揭示了模型在视觉感知、时间概念和“自我意识”(理解自身局限性)方面的不足。然而,该项目在公开发布后获得了巨大反响,其Twitch直播吸引了大量观众,并成功地将抽象的“AI智能体”概念以一种直观、有趣的方式普及给公众。最终,该实验不仅是衡量模型进步的有效基准,也为开发者提供了宝贵的经验:构建AI智能体的最佳起点是选择一个充满乐趣、能激发持续投入的项目,通过实践建立对模型能力的深刻直觉。
项目起源与目标
- 发起人与动机:David Hershey(应用AI团队)为了给自己创建一个测试平台来试验和理解AI智能体而发起了这个项目。他观察到,智能体是为客户创造价值的最重要领域,他希望深入了解Claude在需要连续执行大量动作而无人干预情境下的表现。
- 为何选择宝可梦:
- 理想的测试环境:宝可梦是回合制游戏,对模型的响应速度要求低。模型可以有充足的时间分析截图并决定下一步行动,而不会有实时惩罚。
- 清晰的反馈机制:游戏内置了明确的进展衡量标准,如获得道馆徽章、游戏进程推进等,这使得评估模型的成功与否变得直观且可量化。
- 个人兴趣:David本人是宝可梦的长期粉丝,这为他提供了持续投入项目的热情。
- 核心目标:项目的目的并非让Claude通关游戏,而是为了深入理解和评估Claude作为智能体的能力和局限性。
> David Hershey: "My goal is not to beat Pokemon red. Like I did that when I was six... I wanted to find out how Claude figures out the answer."
技术实现:Claude如何玩宝可梦
- 基本架构:
- 初始指令 (Prompt):给予Claude一个极其简单的指令:“你正在玩宝可梦”。
- 工具集 (Tools):为Claude提供一套可以与Game Boy模拟器交互的工具,主要是模拟按键操作(如按A键、B键、上、下、左、右)。
- 核心反馈循环:
- Claude决定并执行一个按键操作。
- 系统向Claude返回一张游戏画面的截图。
- Claude基于新的截图,结合其记忆和目标,决定下一个动作。
- 这个“观察-行动-观察”的循环会持续进行。
核心挑战与解决方案:长期记忆系统
- 问题:上下文窗口限制:Claude的上下文窗口有限,大约只能容纳50次按键操作及相应的截图。若无处理,模型很快会“用尽内存”,导致任务中断和“失忆”。
- 解决方案:David设计了一套双重记忆系统,其灵感类似于电影《记忆碎片》(Memento)中的主角。
- 长期记忆 (Knowledge Base):给予Claude一个工具,让其能将关键信息写入一个外部的“知识库”(类似于一个纯文本文件)。这些信息包括:
- 当前的目标(如“我需要去下一个城镇”)。
- 已拥有的宝可梦。
- 已完成的任务。
- 从经验中学到的教训(如“某个策略很有效”)。
- 这个知识库在整个游戏过程中持续存在,Claude可以随时查阅。
- 短期记忆总结 (Summarization):当上下文窗口即将填满时,系统会要求Claude将最近执行的几十个动作总结成一句话。然后,系统会清空这些详细的动作记录,只保留总结和长期记忆,从而为新的动作腾出空间。
David Hershey: "it's been running for three weeks continuously, it's probably summarized itself a few thousand times by now."
- 长期记忆 (Knowledge Base):给予Claude一个工具,让其能将关键信息写入一个外部的“知识库”(类似于一个纯文本文件)。这些信息包括:
模型迭代与能力演进
Claude在玩宝可梦上的表现随着模型版本的更新换代发生了显著变化:
- Claude 3.5 Sonnet (2024年6月版):
- 表现非常差,能力有限。
- 花了大约三天时间才找到初始房间里的楼梯。
- 能触发获得初始宝可梦的过场动画已是当时的“巅峰成就”。
- Claude 3.5 Sonnet (2024年10月更新版):
- 有明显进步,能稳定地找到楼梯并获得初始宝可梦。
- 首次赢下了一场战斗。
- 但仍然非常缓慢,会犯很多“愚蠢的错误”,其表现仅比“随机按键”好一点点。
- Claude 3.7 Sonnet:
- 实现了“天壤之别 (way better)”的飞跃。
- 即使在David的代码存在bug、未能向模型展示全部所需信息的情况下,其表现也远超前代。
- 能够有意义地玩游戏,并成功击败了一位道馆馆主。
什么能力得到了提升?
一个令人意外的发现是,模型进步的关键点并不在于视觉能力。
- 未显著提升的能力:
- 视觉理解 (Vision):David指出,Claude理解Game Boy像素画面的能力“一直以来都那么糟糕”,并未随模型迭代有太大改善。
- 显著提升的能力:
- 策略与规划:模型更擅长提出新策略,并质疑和修正自己先前的错误策略。
- 问题解决与韧性:当一个方法行不通时,模型更愿意回溯并尝试其他所有可能的解决方案。
- 从新信息中学习:能够更好地将新信息(如NPC的对话、战斗结果)融入其现有计划,并进行动态调整。这与人类处理复杂任务(如编程、研究)时的思维循环非常相似。
有趣的失败与当前局限性
Claude在游戏中犯下的错误生动地展示了当前AI智能体的局限性:
- 视觉误判与缺乏时间感:
- 案例:Claude曾将建筑物内的一块门垫误认为是一个对话框,并花费了整整8个小时连续按A键试图“关闭”它。
- 暴露问题:1) 核心的视觉理解错误;2) 完全没有时间概念,对“尝试太久”没有直观感受。
- 缺乏“自我意识”与破坏性行为:
- 案例:为了学习一个新技能,Claude连续快速按A键,结果意外地删除了自己唯一一个攻击性技能,导致自己被困在游戏中无法战斗。
- 暴露问题:模型不理解其行为的潜在破坏性后果,也缺乏对其自身局限性(如无法在连续按键中途停止)的认知。
- 导航困难与“挫败感”行为:
- 案例:在“月见山”这个迷宫里,Claude花了三天时间,历尽艰辛,在距离出口仅有15步之遥时,它迷路了,然后使用了一个名为“逃生绳 (Escape Rope)”的道具,将自己传送回了洞穴的入口,前功尽弃。
- 暴露问题:空间导航能力差;在感到“迷失”时,会采取一种看似理性的“重置”行为,但实际上是灾难性的。
社区反响与公众影响
- 内部演变:项目最初只是Anthropic内部一个有趣的实验,随着3.7 Sonnet的卓越表现,它转变为一个严肃的、衡量模型规划与推理能力的基准。
- 公开发布与巨大成功:
- Twitch直播:直播吸引了数千名观众24/7不间断观看,形成了一个积极、热情的社区。
- 社区文化:催生了专门的Reddit子版块、大量的梗图、粉丝艺术甚至歌曲。
- 核心价值:该项目最大的成功在于,它将“AI智能体”这个抽象的技术概念,以一种具体、直观且引人入胜的方式呈现给了大众。
> David Hershey: "it's a way that I think more people have been able to like latch onto. What is this agent's thing we're talking about?"
给开发者的建议
David Hershey为有志于构建AI智能体的开发者提供了核心建议:
- 核心建议:“从做一些你热爱且觉得有趣的事情开始。”
- 理由:
- 建立直觉:要真正掌握AI,需要花费大量时间与其互动,以建立对其能力、弱点和可信度的深刻直觉。一个有趣的项目能提供持续投入的内在动力。
- 知识的可迁移性:从一个有趣项目(如玩宝可梦)中学到的关于模型如何思考、规划和犯错的经验,可以直接应用于解决更严肃、更实际的业务问题。
- 实践大于理论:这种通过实践获得的深刻理解,远比任何单一的提示工程技巧或技术文档都更有价值。
总结
“Claude玩宝可梦”项目不仅是一个成功的AI能力展示,更是一次关于如何评估、改进和理解高级AI智能体的深刻实践。它揭示了当前模型在战略规划和适应性方面的巨大进步,同时也暴露了其在感知、自我认知和常识推理方面的局限性。最终,该实验证明了通过富有挑战性且反馈明确的复杂任务来推动和衡量AI发展的重要性,并为广大开发者指明了一条通过兴趣和实践来掌握AI智能体开发的有效路径。