2024-09-06 | Anthropic | AI prompt engineering: A deep dive

Detailed Summary 摘要

生成：2025-06-07 19:49

摘要详情

音频文件: 2024-09-06 | Anthropic | AI prompt engineering: A deep dive
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
创建时间: 2025-06-07 19:49:16

摘要内容

概览/核心摘要 (Executive Summary)

本次圆桌会议汇集了Anthropic公司的多位专家，深入探讨了AI提示工程（Prompt Engineering）的演变、核心原则与未来趋势。与会者一致认为，提示工程的核心是清晰的沟通与系统性的迭代，其本质类似于一种新型的“编程”，要求工程师不仅能清晰地阐述任务，还要具备系统思维，考虑数据来源、延迟、成本等多种因素。优秀的提示工程师需具备预见并处理边缘案例的能力，并通过反复试验来优化模型表现。

讨论中的一个关键分歧在于与模型的沟通方式：Amanda Askell主张对模型完全诚实，直接阐述真实任务背景，认为这是与日益强大的模型沟通的最有效方式；而Zack Witten则认为使用恰当的隐喻（如“像批改高中生作业一样评估图表”）能有效引导模型。最终的共识是，应避免使用与任务无关的“角色扮演”作为捷径，而应提供详尽、准确的背景信息。

展望未来，专家们预测提示工程将从单向的“指令式”转变为双向的“协作式”。随着模型能力超越人类，其角色将从“临时工”转变为“专家顾问”，主动向用户提问以澄清需求。因此，未来的核心技能将从“如何教导模型”转变为“如何清晰地自我反思并向模型表达意图”。最终，提示工程的精髓被总结为：“将你大脑中的复杂思想，以一种能让一个聪明的‘外行’都能理解的方式，清晰地外化出来。”

提示工程的定义与本质

与会专家从不同角度定义了提示工程，并一致认为它是一门结合了沟通艺术与工程严谨性的交叉学科。

核心是清晰沟通与迭代：
- Zack Witten 将其定义为“努力引导模型发挥最大潜力”，其核心是清晰的沟通，并理解模型的“心理”。
- “工程”一词的关键在于其迭代和试错的特性。与人交谈不同，与模型交互时可以无限次地“从零开始”，这种可重复的实验过程构成了工程的基础。
作为一种“编程”范式：
- David Hershey 认为提示词是“编程模型的方式”。它不仅仅是简单的对话，而是一种系统性思维的体现，需要考虑：
  - 数据来源： 如在使用RAG（检索增强生成）时，需要思考哪些数据可用并能传递给模型。
  - 系统权衡： 需要在延迟、成本和提供给模型的数据量之间做出权衡。
  - 版本控制： 与代码一样，提示词也需要版本控制、实验追踪和精确管理。
- David 强调，这是一种新的范式，其中“书面文本（如一篇优美的文章）”在功能上等同于代码。
自然语言代码的抽象：
- Alex Albert 提出提示词是否是“自然语言代码”的疑问。
- David 警告不要过度抽象，因为“更多时候，你想要做的只是清晰地描述一个任务”，而非构建复杂的抽象层。然而，其对精确性的要求与编程无异。

优秀提示工程师的核心素养

成为一名优秀的提示工程师，需要的不仅仅是写作能力，更是一种综合性的思维模式。

超越写作的迭代意愿：
- Amanda Askell 指出，成为好的提示工程师与成为好的作家并非高度相关。关键在于“愿意迭代、观察和思考模型在哪里产生了误解，并修复它”。
- 她以自身经验为例：> “在15分钟内，我会向模型发送数百个提示，就是不停地来回沟通。”
预见并处理边缘案例：
- Amanda 认为，一个典型的错误是只测试典型案例。优秀的工程师会主动思考并测试各种边缘情况，例如：
  - 提供不包含目标信息的数据集。
  - 输入一个空字符串或完全无关的内容。
  - 为这些意外情况设定明确的指令，即给模型一个“出口”（如输出“不确定”）。
- David Hershey 补充，在企业应用中，必须考虑到用户真实、混乱的输入（如拼写错误、无标点符号），而非理想化的查询。
深入分析模型输出：
- Zack Witten 强调，机器学习中的“查看你的数据”原则，在提示工程中对应的是“仔细阅读模型的输出”。
- 例如，即使在提示中加入了“一步步思考”，也需要检查模型是否真的在进行逻辑严密的思考，而不是仅在形式上模仿。
剥离自身假设，提供完整上下文：
- David Hershey 认为，一个关键的差异化能力是“剥离你所有的假设，并清晰地传达完成任务所需的全部信息”。
- Amanda 也表示：> “如果我作为一个人类都无法根据这个提示完成任务，你却把它交给一个比我差的系统，并期望它做得更好，这是不合理的。”

提示词的迭代与优化策略

专家们分享了多种实用的提示词优化技巧，强调了与模型互动的重要性。

让模型成为你的助手：
- Amanda Askell 提出，可以直接要求模型识别指令中的模糊之处。
- 当模型犯错时，可以反问它：“你为什么会弄错？你能否修改我的指令，让你下次不再犯错？” 这种方法有时能直接得到有效的优化建议。
建立信任但保持验证：
- Amanda 表示她默认“从不信任模型”，而是通过大量的测试来建立信任。她认为，一个精心设计的、包含数百个覆盖边缘案例的测试集，比数千个粗糙的测试点更有价值。
知道何时停止“内卷”：
- David Hershey 警告不要陷入对“神话般的完美提示词”的无尽追求中。
- 判断何时放弃的启发式方法： 当模型的“思考过程”完全偏离正轨，且任何微调都只会导致另一种截然不同的错误时，就应该考虑放弃。
- David的“宝可梦实验” 是一个典型案例：他尝试让Claude通过模拟器玩《宝可梦红》，但模型在理解游戏画面上遇到极大困难。经过整个周末的努力，结果仅从“完全没信号”提升到“有一点信号但远不够好”。他的结论是：> “我还是等下一个模型吧。” 这揭示了在提示工程上投入与等待模型能力迭代之间的张力。

角色扮演、隐喻与诚实：与模型沟通的艺术

关于如何与模型沟通，专家们就“角色扮演”这一流行技巧展开了深入辩论。

Amanda的“诚实派”观点：
- 她主张对模型完全诚实，直接告知其任务的真实背景（例如，“我是一名AI研究员，正在进行一项实验”）。
- 她认为，随着模型越来越了解世界，伪装任务（如“你是一名正在为学生出题的老师”）是不必要的，甚至会因为信息不准确而降低效果。
- 核心类比 - “临时工” (Temp Agency)： > “想象你雇佣了一个临时工。他很能干，但对你的公司一无所知。你会直接、清晰地告诉他任务是什么，而不是让他扮演一个不相干的角色。”
Zack的“隐喻派”观点：
- 他认为隐喻非常有用，它并非说谎，而是为模型提供一个有用的思维框架。
- 例如，要求模型“像批改高中作业一样给这个图表打分”，这能有效地传达所需的评估标准和分析深度。
David的综合观点：
- 他认同Amanda的看法，即许多人将“角色扮演”作为一种懒惰的捷径，导致任务偏离。他建议对任务的真实上下文进行“极其详尽的规定”。
- 他也承认Zack的隐喻方法在某些情况下是有效的，因为它帮助模型理解任务的“尺度”。
结论： 沟通的关键在于提供清晰、准确、完整的上下文。直接的诚实沟通优于模糊的角色扮演，而恰当的隐喻可以作为一种强大的辅助工具来阐明任务要求。

思维链（Chain of Thought）的争议与价值

专家们探讨了“思维链”提示（即让模型在回答前先解释其推理过程）的有效性。

是否是“真实”推理？ 这个问题被认为带有哲学色彩，在实践中并不那么重要。
务实的共识：
- David Hershey 指出，无论其背后机制如何，“它就是有效”。让模型进行结构化的推理，其输出结果会明显更好。
- 这不仅仅是为模型提供“计算空间”，因为让模型在回答前写一个无关的故事，并不能达到同样的效果。
局限性： Alex Albert 提到，有时模型在推理步骤中犯了错，但最终答案却是正确的，这表明其“推理”过程与人类的逻辑推理不完全相同。

提示工程的演变与发展

提示工程的技术和理念在过去几年中发生了显著变化。

从“技巧”到“内化”：
- Zack Witten 指出，许多曾经有效的“技巧”或“黑客方法”（hacks）是短暂的，因为“我们会把它们训练进模型里”。例如，曾经需要明确指令的“思维链”在数学问题上已部分内化为模型的默认行为。
- 然而，随着模型解锁新能力，总会有新的前沿领域需要新的提示技巧。
对模型能力的“尊重”提升：
- David Hershey 表示，他现在更倾向于“尊重模型”，并给予其更多、更复杂的上下文信息，相信它有能力处理。而在过去，他会刻意简化任务。
- Amanda Askell 的做法是极致体现：> “我会直接给模型一篇论文，让它学习一种新的提示技术，然后为我生成示例。” 这反映了她将模型视为一个高度能干的智能体。

提示工程的未来展望：从指令到协作

专家们对提示工程的未来描绘了一个激动人心的图景，其核心是人机关系的转变。

从单向指令到双向协作：
- 未来，模型将不仅仅是被动接收指令，而是会主动与用户协作，帮助用户澄清和明确自己的需求。
- David Hershey 提到，他已经开始让Claude“面试”自己，以帮助他梳理并提取大脑中完成任务所需的全部信息。
模型角色的转变：从“临时工”到“专家顾问”：
- Amanda Askell 提出了一个关键的转变点：当模型在某个任务上的能力超越人类时，关系就会颠倒。
- 设计师类比： 这种关系将从“指导临时工”转变为“咨询专家设计师”。客户提出模糊需求（“让海报更大胆些”），而专家设计师会通过提问来挖掘客户的真实意图。模型将扮演这个专家角色。
核心技能的转变：从“教学”到“内省”：
- Zack Witten 认为，未来的核心技能将从“如何教导模型”转变为“如何进行内省，让自己对模型变得清晰易懂”。

核心结论

提示工程是一门深度融合了清晰沟通、系统思维和迭代实验的学科。它的过去是从简单的技巧演变为复杂的上下文构建，而它的未来则在于一种人机协作的新范式。在这种范式中，AI将成为主动的合作伙伴，帮助人类更好地理解和表达自身的目标。正如Amanda Askell最后总结的，提示工程的终极目标是：

“能够将你大脑中的东西，进行分析，直到你完全理解它们，并能将它们外化给任何一个理性的普通人……这就是提示工程的核心。”

返回音频媒体