2025-05-30 | Y Combinator | State-Of-The-Art Prompting For AI Agents

Detailed Summary 摘要

生成：2025-06-06 20:16

摘要详情

音频文件: 2025-05-30 | Y Combinator | State-Of-The-Art Prompting For AI Agents
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
创建时间: 2025-06-06 20:16:04

摘要内容

概览/核心摘要 (Executive Summary)

本次讨论深入剖析了顶尖AI初创公司在提示工程（Prompt Engineering）领域的最新实践与核心思想。与会者（Garry, Harj, Diana, Jared）一致认为，提示已从临时技巧演变为与AI交互的关键，其复杂性和重要性日益凸显。核心结论包括：1) 高质量的提示是构建可靠AI代理的基石，如Parahelp公司公开的六页长提示所示，其结构化、角色设定、分步规划和输出格式定义是最佳实践的典范。2) “元提示（Metaprompting）”和“提示折叠（Prompt Folding）”正成为主流，即利用大语言模型（LLM）自身来迭代和优化提示，实现持续改进，这被比作制造业中的“改善（Kaizen）”原则。3) 创始人需扮演“前线部署工程师（Forward Deployed Engineer, FDE）”的角色，通过深入客户工作流，将具体业务场景转化为有效的评估集（Evals）和提示，这是AI初创公司构建护城河、击败行业巨头的关键。4) 评估集（Evals）比提示本身更重要，它们是公司真正的“皇冠上的宝石”，体现了对用户需求的深刻理解。最后，讨论强调了不同LLM模型具有独特的“个性”，需要采用不同的策略进行引导，而提示工程本身既像早期编程，也像管理人才，需要精细的沟通与反馈机制。

剖析顶尖AI代理的提示设计：以Parahelp为例

Parahelp是一家为Perplexity、Replit等顶尖AI公司提供AI客户支持服务的公司。他们公开的代理提示（Agent Prompt）揭示了当前最先进的提示设计方法。

核心特征：
- 详尽与结构化：该提示长达六页，内容非常详细，并使用Markdown格式进行清晰的结构划分。
- 角色设定（Role Setting）：提示首先为LLM设定一个明确的角色，例如“你是一名客服代理的经理”，并用要点列出其职责。
- 任务定义与规划：明确指出核心任务（例如“批准或拒绝一个工具调用”），并提供一个高层次的分步计划（步骤1, 2, 3, 4, 5）。
- 输出格式规范：严格规定输出的结构，以确保能与其他代理或API无缝集成。这通常通过指定JSON格式或类似accept/reject的特定输出来实现。
- 推理指导与示例：提示不仅告诉LLM做什么，还指导它“如何思考（how to reason）”，并提供具体的示例。
- 类编程语言的语法：使用类似XML标签的格式来组织内容，因为研究发现LLM在经过此类格式的训练后，能更好地遵循指令，产出更可靠的结果。
观点与争议：
- Garry的疑问：Garry指出，该公开提示中缺少针对特定场景的具体输出示例。
- Jared的解释：这些客户特定的示例被放置在流程的下一阶段，即“开发者提示（Developer Prompt）”中。这引出了一个核心挑战：如何在提供定制化逻辑的同时，避免成为一家为每个客户重写提示的“咨询公司”。

新兴的提示架构与高级技巧

为了解决通用性与定制化的矛盾，一种三层提示架构正在兴起。

三层提示架构：
1. 系统提示 (System Prompt)：定义公司运营的高层API和通用逻辑，如Parahelp的例子，不包含客户特定信息。
2. 开发者提示 (Developer Prompt)：为特定客户填充上下文和逻辑。例如，处理Perplexity的RAG问题与处理Bolt的工单流程截然不同，这些差异在此层定义。
3. 用户提示 (User Prompt)：由最终用户直接输入的内容，例如在Replit中输入“为我生成一个包含这些按钮的网站”。
高级技巧与策略：
- 提供“逃生舱口” (Escape Hatch)：为防止LLM在信息不足时产生幻觉，必须给予其明确的退出机制。
  - 方法一（Trophe.ai）：直接指示模型“如果你没有足够信息，不要编造，停下来问我”。
  - 方法二（YC内部实践）：在输出格式中增加一个debug_info字段，让LLM可以在其中“抱怨”指令不明确或信息不足。这为开发者提供了一个持续改进的“待办事项列表”。
- 利用高质量示例：对于复杂的任务（如在代码中寻找N+1查询错误），仅用文字描述难以奏效。此时，提供一个专家级的解决示例（类似于软件开发的“测试驱动开发”）能有效引导LLM进行复杂推理。
- 利用思考轨迹 (Thinking Traces)：Gemini 1.5 Pro等模型API现在提供“思考轨迹”，让开发者能看到模型的推理过程，这是调试和优化提示的关键信息。

元提示（Metaprompting）：AI的自我进化

元提示是当前最强大的工具之一，其核心是利用LLM来改进其自身的提示。

核心概念：
- 提示折叠 (Prompt Folding)：由YC投资的Trophe.ai公司提出，指一个提示可以动态地生成一个更优化的、针对特定查询的专用版本。
- 实践方法：当一个提示失败时，开发者可以将失败的案例和原始提示一起输入给LLM，并要求它“帮我把这个提示变得更好”。
- 简易入门：可以给LLM设定一个“专家级提示工程师”的角色，然后让它来评判和改进你现有的提示。
应用策略：
- 模型分层优化：使用一个更强大、更昂贵的模型（如GPT-4o或Claude 3 Opus）进行元提示，生成一个高质量的优化版提示。然后，将这个精炼后的提示用于一个更小、更快、成本更低的生产模型中，这对于需要低延迟的应用（如语音AI代理）尤为重要。

评估集（Evals）：真正的“皇冠上的宝石”

与会者一致认为，评估集（Evals）是AI初创公司最核心的数据资产，其价值甚至超过提示本身。

Jared的观点：> “Evals是这些公司的皇冠上的宝石。没有Evals，你不知道提示为什么被写成那样，也很难去改进它。”
Garry的观点：Evals是将真实世界的用户需求和工作流“编码”成软件的过程。它要求创始人深入一线，例如“坐在内布拉斯加州的拖拉机销售区域经理旁边”，理解他们的痛点和奖励机制，然后将这些洞察转化为具体的评估标准。这是AI初创公司建立护城河，避免成为简单“模型包装商”的关键。

创始人即“前线部署工程师 (Forward Deployed Engineer)”

该模式源于Palantir，现已成为垂直AI代理初创公司成功的关键模型。

模式核心：创始人不再是传统的销售或产品经理，而是集技术、产品、设计和民族志学者于一身的“前线部署工程师”。他们直接与客户（如大型企业的CIO）会面，深入理解其复杂工作流。
运作方式：
1. 深入一线：与客户并肩工作，观察并理解其现有流程（通常是基于Word文档和Excel表格）。
2. 快速原型：利用LLM的强大能力，将洞察迅速转化为一个能解决客户核心痛点的产品演示（Demo）。
3. “Wow”时刻：在第二次会议上展示一个让客户感觉“被看见了”的、前所未见的解决方案，从而快速赢得大额合同（6至7位数）。
成功案例：
- Gigo ML：通过此模式与Zomato等公司签下大单。
- Happy Robot：向全球三大物流经纪商销售了七位数的AI语音代理合同。

LLM的“个性”与评分标准（Rubrics）的应用

不同的LLM模型在处理任务时表现出不同的“个性”和行为模式。

模型个性对比：
- Claude系列：被认为是“更快乐、更人性化”的模型。
- Llama系列：更像一个“开发者”，需要更多明确的引导和操纵，但如果提示得当，可塑性很强。
使用评分标准（Rubrics）的经验：
- 在要求模型进行数值评分时，提供一个清晰的评分标准至关重要。
- YC内部在使用LLM评估投资者时发现：
  - GPT-4o (原文为"zero three")：表现得非常“死板”，像一个“士兵”，严格遵守评分标准。
  - Gemini 1.5 Pro (原文为"Gemini 2.5 pro")：则更加“灵活”，像一个“高自主性的员工”，它会使用评分标准作为指导，但也能理解和处理例外情况。

结论：提示工程是编码、管理与持续改善的艺术

Garry总结道，当前的提示工程体验非常独特，融合了多种技能。

像1995年的编程：身处一个工具尚不完善的“新前沿”。
像管理一个人：核心在于如何有效沟通，设定明确的目标和评估标准。
体现了“改善（Kaizen）”精神：日本制造业的持续改进原则，即由一线执行者来推动流程优化，这与“元提示”让模型自我改进的理念不谋而合。

返回音频媒体