详细摘要 摘要
生成:2025-06-07 19:49摘要详情
- 音频文件
- 2024-09-06 | Anthropic | AI prompt engineering: A deep dive
- 摘要类型
- 详细摘要
- LLM 提供商
- openai
- LLM 模型
- gemini-2.5-pro-preview-06-05
- 已创建
- 2025-06-07 19:49:16
摘要内容
概览/核心摘要 (Executive Summary)
本次圆桌会议汇集了Anthropic公司的多位专家,深入探讨了AI提示工程(Prompt Engineering)的演变、核心原则与未来趋势。与会者一致认为,提示工程的核心是清晰的沟通与系统性的迭代,其本质类似于一种新型的“编程”,要求工程师不仅能清晰地阐述任务,还要具备系统思维,考虑数据来源、延迟、成本等多种因素。优秀的提示工程师需具备预见并处理边缘案例的能力,并通过反复试验来优化模型表现。
讨论中的一个关键分歧在于与模型的沟通方式:Amanda Askell主张对模型完全诚实,直接阐述真实任务背景,认为这是与日益强大的模型沟通的最有效方式;而Zack Witten则认为使用恰当的隐喻(如“像批改高中生作业一样评估图表”)能有效引导模型。最终的共识是,应避免使用与任务无关的“角色扮演”作为捷径,而应提供详尽、准确的背景信息。
展望未来,专家们预测提示工程将从单向的“指令式”转变为双向的“协作式”。随着模型能力超越人类,其角色将从“临时工”转变为“专家顾问”,主动向用户提问以澄清需求。因此,未来的核心技能将从“如何教导模型”转变为“如何清晰地自我反思并向模型表达意图”。最终,提示工程的精髓被总结为:“将你大脑中的复杂思想,以一种能让一个聪明的‘外行’都能理解的方式,清晰地外化出来。”
提示工程的定义与本质
与会专家从不同角度定义了提示工程,并一致认为它是一门结合了沟通艺术与工程严谨性的交叉学科。
-
核心是清晰沟通与迭代:
- Zack Witten 将其定义为“努力引导模型发挥最大潜力”,其核心是清晰的沟通,并理解模型的“心理”。
- “工程”一词的关键在于其迭代和试错的特性。与人交谈不同,与模型交互时可以无限次地“从零开始”,这种可重复的实验过程构成了工程的基础。
-
作为一种“编程”范式:
- David Hershey 认为提示词是“编程模型的方式”。它不仅仅是简单的对话,而是一种系统性思维的体现,需要考虑:
- 数据来源: 如在使用RAG(检索增强生成)时,需要思考哪些数据可用并能传递给模型。
- 系统权衡: 需要在延迟、成本和提供给模型的数据量之间做出权衡。
- 版本控制: 与代码一样,提示词也需要版本控制、实验追踪和精确管理。
- David 强调,这是一种新的范式,其中“书面文本(如一篇优美的文章)”在功能上等同于代码。
- David Hershey 认为提示词是“编程模型的方式”。它不仅仅是简单的对话,而是一种系统性思维的体现,需要考虑:
-
自然语言代码的抽象:
- Alex Albert 提出提示词是否是“自然语言代码”的疑问。
- David 警告不要过度抽象,因为“更多时候,你想要做的只是清晰地描述一个任务”,而非构建复杂的抽象层。然而,其对精确性的要求与编程无异。
优秀提示工程师的核心素养
成为一名优秀的提示工程师,需要的不仅仅是写作能力,更是一种综合性的思维模式。
-
超越写作的迭代意愿:
- Amanda Askell 指出,成为好的提示工程师与成为好的作家并非高度相关。关键在于“愿意迭代、观察和思考模型在哪里产生了误解,并修复它”。
- 她以自身经验为例:> “在15分钟内,我会向模型发送数百个提示,就是不停地来回沟通。”
-
预见并处理边缘案例:
- Amanda 认为,一个典型的错误是只测试典型案例。优秀的工程师会主动思考并测试各种边缘情况,例如:
- 提供不包含目标信息的数据集。
- 输入一个空字符串或完全无关的内容。
- 为这些意外情况设定明确的指令,即给模型一个“出口”(如输出“不确定”)。
- David Hershey 补充,在企业应用中,必须考虑到用户真实、混乱的输入(如拼写错误、无标点符号),而非理想化的查询。
- Amanda 认为,一个典型的错误是只测试典型案例。优秀的工程师会主动思考并测试各种边缘情况,例如:
-
深入分析模型输出:
- Zack Witten 强调,机器学习中的“查看你的数据”原则,在提示工程中对应的是“仔细阅读模型的输出”。
- 例如,即使在提示中加入了“一步步思考”,也需要检查模型是否真的在进行逻辑严密的思考,而不是仅在形式上模仿。
-
剥离自身假设,提供完整上下文:
- David Hershey 认为,一个关键的差异化能力是“剥离你所有的假设,并清晰地传达完成任务所需的全部信息”。
- Amanda 也表示:> “如果我作为一个人类都无法根据这个提示完成任务,你却把它交给一个比我差的系统,并期望它做得更好,这是不合理的。”
提示词的迭代与优化策略
专家们分享了多种实用的提示词优化技巧,强调了与模型互动的重要性。
-
让模型成为你的助手:
- Amanda Askell 提出,可以直接要求模型识别指令中的模糊之处。
- 当模型犯错时,可以反问它:“你为什么会弄错?你能否修改我的指令,让你下次不再犯错?” 这种方法有时能直接得到有效的优化建议。
-
建立信任但保持验证:
- Amanda 表示她默认“从不信任模型”,而是通过大量的测试来建立信任。她认为,一个精心设计的、包含数百个覆盖边缘案例的测试集,比数千个粗糙的测试点更有价值。
-
知道何时停止“内卷”:
- David Hershey 警告不要陷入对“神话般的完美提示词”的无尽追求中。
- 判断何时放弃的启发式方法: 当模型的“思考过程”完全偏离正轨,且任何微调都只会导致另一种截然不同的错误时,就应该考虑放弃。
- David的“宝可梦实验” 是一个典型案例:他尝试让Claude通过模拟器玩《宝可梦 红》,但模型在理解游戏画面上遇到极大困难。经过整个周末的努力,结果仅从“完全没信号”提升到“有一点信号但远不够好”。他的结论是:> “我还是等下一个模型吧。” 这揭示了在提示工程上投入与等待模型能力迭代之间的张力。
角色扮演、隐喻与诚实:与模型沟通的艺术
关于如何与模型沟通,专家们就“角色扮演”这一流行技巧展开了深入辩论。
-
Amanda的“诚实派”观点:
- 她主张对模型完全诚实,直接告知其任务的真实背景(例如,“我是一名AI研究员,正在进行一项实验”)。
- 她认为,随着模型越来越了解世界,伪装任务(如“你是一名正在为学生出题的老师”)是不必要的,甚至会因为信息不准确而降低效果。
- 核心类比 - “临时工” (Temp Agency): > “想象你雇佣了一个临时工。他很能干,但对你的公司一无所知。你会直接、清晰地告诉他任务是什么,而不是让他扮演一个不相干的角色。”
-
Zack的“隐喻派”观点:
- 他认为隐喻非常有用,它并非说谎,而是为模型提供一个有用的思维框架。
- 例如,要求模型“像批改高中作业一样给这个图表打分”,这能有效地传达所需的评估标准和分析深度。
-
David的综合观点:
- 他认同Amanda的看法,即许多人将“角色扮演”作为一种懒惰的捷径,导致任务偏离。他建议对任务的真实上下文进行“极其详尽的规定”。
- 他也承认Zack的隐喻方法在某些情况下是有效的,因为它帮助模型理解任务的“尺度”。
-
结论: 沟通的关键在于提供清晰、准确、完整的上下文。直接的诚实沟通优于模糊的角色扮演,而恰当的隐喻可以作为一种强大的辅助工具来阐明任务要求。
思维链(Chain of Thought)的争议与价值
专家们探讨了“思维链”提示(即让模型在回答前先解释其推理过程)的有效性。
- 是否是“真实”推理? 这个问题被认为带有哲学色彩,在实践中并不那么重要。
- 务实的共识:
- David Hershey 指出,无论其背后机制如何,“它就是有效”。让模型进行结构化的推理,其输出结果会明显更好。
- 这不仅仅是为模型提供“计算空间”,因为让模型在回答前写一个无关的故事,并不能达到同样的效果。
- 局限性: Alex Albert 提到,有时模型在推理步骤中犯了错,但最终答案却是正确的,这表明其“推理”过程与人类的逻辑推理不完全相同。
提示工程的演变与发展
提示工程的技术和理念在过去几年中发生了显著变化。
-
从“技巧”到“内化”:
- Zack Witten 指出,许多曾经有效的“技巧”或“黑客方法”(hacks)是短暂的,因为“我们会把它们训练进模型里”。例如,曾经需要明确指令的“思维链”在数学问题上已部分内化为模型的默认行为。
- 然而,随着模型解锁新能力,总会有新的前沿领域需要新的提示技巧。
-
对模型能力的“尊重”提升:
- David Hershey 表示,他现在更倾向于“尊重模型”,并给予其更多、更复杂的上下文信息,相信它有能力处理。而在过去,他会刻意简化任务。
- Amanda Askell 的做法是极致体现:> “我会直接给模型一篇论文,让它学习一种新的提示技术,然后为我生成示例。” 这反映了她将模型视为一个高度能干的智能体。
提示工程的未来展望:从指令到协作
专家们对提示工程的未来描绘了一个激动人心的图景,其核心是人机关系的转变。
-
从单向指令到双向协作:
- 未来,模型将不仅仅是被动接收指令,而是会主动与用户协作,帮助用户澄清和明确自己的需求。
- David Hershey 提到,他已经开始让Claude“面试”自己,以帮助他梳理并提取大脑中完成任务所需的全部信息。
-
模型角色的转变:从“临时工”到“专家顾问”:
- Amanda Askell 提出了一个关键的转变点:当模型在某个任务上的能力超越人类时,关系就会颠倒。
- 设计师类比: 这种关系将从“指导临时工”转变为“咨询专家设计师”。客户提出模糊需求(“让海报更大胆些”),而专家设计师会通过提问来挖掘客户的真实意图。模型将扮演这个专家角色。
-
核心技能的转变:从“教学”到“内省”:
- Zack Witten 认为,未来的核心技能将从“如何教导模型”转变为“如何进行内省,让自己对模型变得清晰易懂”。
核心结论
提示工程是一门深度融合了清晰沟通、系统思维和迭代实验的学科。它的过去是从简单的技巧演变为复杂的上下文构建,而它的未来则在于一种人机协作的新范式。在这种范式中,AI将成为主动的合作伙伴,帮助人类更好地理解和表达自身的目标。正如Amanda Askell最后总结的,提示工程的终极目标是:
“能够将你大脑中的东西,进行分析,直到你完全理解它们,并能将它们外化给任何一个理性的普通人……这就是提示工程的核心。”