详细摘要 摘要

生成:2025-06-06 20:16

摘要详情

音频文件
2025-05-30 | Y Combinator | State-Of-The-Art Prompting For AI Agents
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-preview-06-05
已创建
2025-06-06 20:16:04

概览/核心摘要 (Executive Summary)

本次讨论深入剖析了顶尖AI初创公司在提示工程(Prompt Engineering)领域的最新实践与核心思想。与会者(Garry, Harj, Diana, Jared)一致认为,提示已从临时技巧演变为与AI交互的关键,其复杂性和重要性日益凸显。核心结论包括:1) 高质量的提示是构建可靠AI代理的基石,如Parahelp公司公开的六页长提示所示,其结构化、角色设定、分步规划和输出格式定义是最佳实践的典范。2) “元提示(Metaprompting)”和“提示折叠(Prompt Folding)”正成为主流,即利用大语言模型(LLM)自身来迭代和优化提示,实现持续改进,这被比作制造业中的“改善(Kaizen)”原则。3) 创始人需扮演“前线部署工程师(Forward Deployed Engineer, FDE)”的角色,通过深入客户工作流,将具体业务场景转化为有效的评估集(Evals)和提示,这是AI初创公司构建护城河、击败行业巨头的关键。4) 评估集(Evals)比提示本身更重要,它们是公司真正的“皇冠上的宝石”,体现了对用户需求的深刻理解。最后,讨论强调了不同LLM模型具有独特的“个性”,需要采用不同的策略进行引导,而提示工程本身既像早期编程,也像管理人才,需要精细的沟通与反馈机制。

剖析顶尖AI代理的提示设计:以Parahelp为例

Parahelp是一家为Perplexity、Replit等顶尖AI公司提供AI客户支持服务的公司。他们公开的代理提示(Agent Prompt)揭示了当前最先进的提示设计方法。

  • 核心特征

    • 详尽与结构化:该提示长达六页,内容非常详细,并使用Markdown格式进行清晰的结构划分。
    • 角色设定(Role Setting):提示首先为LLM设定一个明确的角色,例如“你是一名客服代理的经理”,并用要点列出其职责。
    • 任务定义与规划:明确指出核心任务(例如“批准或拒绝一个工具调用”),并提供一个高层次的分步计划(步骤1, 2, 3, 4, 5)。
    • 输出格式规范:严格规定输出的结构,以确保能与其他代理或API无缝集成。这通常通过指定JSON格式或类似accept/reject的特定输出来实现。
    • 推理指导与示例:提示不仅告诉LLM做什么,还指导它“如何思考(how to reason)”,并提供具体的示例。
    • 类编程语言的语法:使用类似XML标签的格式来组织内容,因为研究发现LLM在经过此类格式的训练后,能更好地遵循指令,产出更可靠的结果。
  • 观点与争议

    • Garry的疑问:Garry指出,该公开提示中缺少针对特定场景的具体输出示例。
    • Jared的解释:这些客户特定的示例被放置在流程的下一阶段,即“开发者提示(Developer Prompt)”中。这引出了一个核心挑战:如何在提供定制化逻辑的同时,避免成为一家为每个客户重写提示的“咨询公司”。

新兴的提示架构与高级技巧

为了解决通用性与定制化的矛盾,一种三层提示架构正在兴起。

  • 三层提示架构

    1. 系统提示 (System Prompt):定义公司运营的高层API和通用逻辑,如Parahelp的例子,不包含客户特定信息。
    2. 开发者提示 (Developer Prompt):为特定客户填充上下文和逻辑。例如,处理Perplexity的RAG问题与处理Bolt的工单流程截然不同,这些差异在此层定义。
    3. 用户提示 (User Prompt):由最终用户直接输入的内容,例如在Replit中输入“为我生成一个包含这些按钮的网站”。
  • 高级技巧与策略

    • 提供“逃生舱口” (Escape Hatch):为防止LLM在信息不足时产生幻觉,必须给予其明确的退出机制。
      • 方法一(Trophe.ai):直接指示模型“如果你没有足够信息,不要编造,停下来问我”。
      • 方法二(YC内部实践):在输出格式中增加一个debug_info字段,让LLM可以在其中“抱怨”指令不明确或信息不足。这为开发者提供了一个持续改进的“待办事项列表”。
    • 利用高质量示例:对于复杂的任务(如在代码中寻找N+1查询错误),仅用文字描述难以奏效。此时,提供一个专家级的解决示例(类似于软件开发的“测试驱动开发”)能有效引导LLM进行复杂推理。
    • 利用思考轨迹 (Thinking Traces):Gemini 1.5 Pro等模型API现在提供“思考轨迹”,让开发者能看到模型的推理过程,这是调试和优化提示的关键信息。

元提示(Metaprompting):AI的自我进化

元提示是当前最强大的工具之一,其核心是利用LLM来改进其自身的提示。

  • 核心概念

    • 提示折叠 (Prompt Folding):由YC投资的Trophe.ai公司提出,指一个提示可以动态地生成一个更优化的、针对特定查询的专用版本。
    • 实践方法:当一个提示失败时,开发者可以将失败的案例和原始提示一起输入给LLM,并要求它“帮我把这个提示变得更好”。
    • 简易入门:可以给LLM设定一个“专家级提示工程师”的角色,然后让它来评判和改进你现有的提示。
  • 应用策略

    • 模型分层优化:使用一个更强大、更昂贵的模型(如GPT-4o或Claude 3 Opus)进行元提示,生成一个高质量的优化版提示。然后,将这个精炼后的提示用于一个更小、更快、成本更低的生产模型中,这对于需要低延迟的应用(如语音AI代理)尤为重要。

评估集(Evals):真正的“皇冠上的宝石”

与会者一致认为,评估集(Evals)是AI初创公司最核心的数据资产,其价值甚至超过提示本身。

  • Jared的观点:> “Evals是这些公司的皇冠上的宝石。没有Evals,你不知道提示为什么被写成那样,也很难去改进它。”
  • Garry的观点:Evals是将真实世界的用户需求和工作流“编码”成软件的过程。它要求创始人深入一线,例如“坐在内布拉斯加州的拖拉机销售区域经理旁边”,理解他们的痛点和奖励机制,然后将这些洞察转化为具体的评估标准。这是AI初创公司建立护城河,避免成为简单“模型包装商”的关键。

创始人即“前线部署工程师 (Forward Deployed Engineer)”

该模式源于Palantir,现已成为垂直AI代理初创公司成功的关键模型。

  • 模式核心:创始人不再是传统的销售或产品经理,而是集技术、产品、设计和民族志学者于一身的“前线部署工程师”。他们直接与客户(如大型企业的CIO)会面,深入理解其复杂工作流。
  • 运作方式
    1. 深入一线:与客户并肩工作,观察并理解其现有流程(通常是基于Word文档和Excel表格)。
    2. 快速原型:利用LLM的强大能力,将洞察迅速转化为一个能解决客户核心痛点的产品演示(Demo)。
    3. “Wow”时刻:在第二次会议上展示一个让客户感觉“被看见了”的、前所未见的解决方案,从而快速赢得大额合同(6至7位数)。
  • 成功案例
    • Gigo ML:通过此模式与Zomato等公司签下大单。
    • Happy Robot:向全球三大物流经纪商销售了七位数的AI语音代理合同。

LLM的“个性”与评分标准(Rubrics)的应用

不同的LLM模型在处理任务时表现出不同的“个性”和行为模式。

  • 模型个性对比
    • Claude系列:被认为是“更快乐、更人性化”的模型。
    • Llama系列:更像一个“开发者”,需要更多明确的引导和操纵,但如果提示得当,可塑性很强。
  • 使用评分标准(Rubrics)的经验
    • 在要求模型进行数值评分时,提供一个清晰的评分标准至关重要。
    • YC内部在使用LLM评估投资者时发现:
      • GPT-4o (原文为"zero three"):表现得非常“死板”,像一个“士兵”,严格遵守评分标准。
      • Gemini 1.5 Pro (原文为"Gemini 2.5 pro"):则更加“灵活”,像一个“高自主性的员工”,它会使用评分标准作为指导,但也能理解和处理例外情况。

结论:提示工程是编码、管理与持续改善的艺术

Garry总结道,当前的提示工程体验非常独特,融合了多种技能。

  • 像1995年的编程:身处一个工具尚不完善的“新前沿”。
  • 像管理一个人:核心在于如何有效沟通,设定明确的目标和评估标准。
  • 体现了“改善(Kaizen)”精神:日本制造业的持续改进原则,即由一线执行者来推动流程优化,这与“元提示”让模型自我改进的理念不谋而合。