详细摘要 摘要

生成:2025-05-16 21:03

摘要详情

音频文件
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-exp-03-25
已创建
2025-05-16 21:03:20

概览/核心摘要 (Executive Summary)

本讲座由艾伦人工智能研究所(AI2)的Nathan Lambert主讲,深入探讨了在直接偏好优化(DPO)之后,大型语言模型(LLM)对齐领域的研究现状与未来方向。Lambert首先回顾了LLM和对齐技术(特别是从RLHF到DPO)的发展历程,强调了后训练(post-training)阶段日益增长的重要性。DPO因其实现简单、易于调试和扩展性好等优点,已成为对齐研究的普遍起点,尤其是在学术界和资源相对有限的团队中。

讲座核心讨论了当前对齐研究面临的关键挑战,特别是高质量人类偏好数据的稀缺(例如Meta为Llama 2购买了约150万个比较数据点,远超学术界常用数据集的规模)以及评估方法的局限性。Lambert介绍了其团队开发的奖励模型评估工具RewardBench,用于提高对齐过程的透明度和理解。他还详细比较了DPO与近端策略优化(PPO)的实证效果,指出PPO虽然可能带来微小性能提升(约1%),但其复杂性和资源消耗远高于DPO。一个关键讨论点是在线学习(online learning)在对齐中的作用,即在训练过程中使用模型新生成的数据或动态更新标签,近期研究表明这对提升模型性能至关重要。Meta Llama 3采用多种后训练方法组合的策略也印证了这一趋势的复杂性和实用主义。最后,Lambert展望了未来研究方向,包括数据创新、DPO方法的持续演进、小模型对齐、更完善的评估体系及个性化对齐。

讲座引言与背景

  • 主讲人介绍:Nathan Lambert,加州大学伯克利分校博士,曾在Hugging Face工作,现就职于艾伦人工智能研究所(AI2),在强化学习应用于语言模型,特别是RLHF和DPO等后训练技术领域有深入研究。
  • 讲座主题:“DPO之后的生活 (Life after DPO)”,探讨在DPO成为主流对齐方法后,对齐研究的现状和未来发展。
  • 核心背景:后训练阶段在LLM开发中愈发关键。工业界(如Meta)在后训练微调中使用的数据量巨大,例如Meta为Llama 2购买的数据点(约150万个比较数据)远超Chatbot Arena等学术资源的累积数据量(约80万)。这揭示了学术研究与工业界在资源上的差距,以及探索不同研究路径的必要性。

大型语言模型与对齐简史

  • Lambert简要回顾了语言模型的发展,从克劳德·香农(Claude Shannon)的基础工作,到自回归损失函数的广泛应用,再到深度学习的推动。
  • 关键节点
    • 2017年:Transformer架构提出。
    • 2018年:GPT-1, ELMo, BERT等模型的出现,奠定了语言处理和嵌入生成的基础。
    • GPT-2与规模法则(scaling laws)成为研究焦点。
    • 2020年:大规模预训练语言模型的实用性开始显现,吸引了AI领域的广泛关注。
    • 2021年:“随机鹦鹉(Stochastic Parrots)”论文在ChatGPT出现前就警示了模型可能存在的偏见和局限。
    • 2022年底:ChatGPT发布,最初设想为OpenAI的一个小型演示,却迅速引发全球关注。
  • RLHF的重要性:Lambert提出问题“没有RLHF,ChatGPT能否存在?”,他认为预训练是基础,但RLHF及其他人类相关的微调技术对于提升顶尖模型的性能是“必要但不充分”的。Anthropic的Constitutional AI论文和Meta的Llama 2技术报告都强调了RLHF的有效性,后者更直言RLHF“被证明非常有效,尤其是在成本和时间效益方面”。

RLHF与DPO的核心概念

  • 相关术语定义
    • 指令微调 (Instruction Fine-Tuning, IFT):训练模型遵循指令,使其更实用、更易交互,与RLHF紧密相关。
    • 监督微调 (Supervised Fine-Tuning, SFT):更偏向领域特定的微调。
    • 对齐 (Alignment):训练模型以符合用户期望,是一个相对模糊的概念。
    • RLHF (Reinforcement Learning from Human Feedback):一种特定的对齐工具,使用人类反馈数据。
    • 偏好微调 (Preference Fine-Tuning):Lambert曾尝试推广的术语,认为其比RLHF更清晰,尤其在DPO背景下。
  • 指令微调 (Instruction Tuning)
    • 仍是许多对齐工作的基础,通过引入“系统提示 (system prompts)”使模型为特定输入风格做好准备。
    • 常用数据如Stack Overflow、Reddit的问答对。
    • 仍使用自回归损失函数。
  • RLHF目标函数
    • 形式上与标准强化学习目标相似:学习一个策略 ( \pi ) 以最大化奖励 ( R )。
    • 包含一个KL散度约束项,防止策略 ( \pi ) 与初始参考模型 ( \pi_{ref} ) 偏离过远,以避免过度优化。
    • 核心问题:如何实现奖励函数?如何优化该目标?
  • 偏好模型 (Preference Model)
    • RLHF中常用的偏好模型源于1950年代经济学中的布拉德利-特里模型 (Bradley-Terry model),该模型描述了成对选择的概率分布。
    • 技术上,偏好模型需输出一个标量值。实践中,学习到的概率分布的输出被直接用作奖励信号,Lambert认为这是一个“巨大的跳跃”,但确实有效。
    • 模型输入一个文本,输出该文本相对于任意其他文本被选中的“概率”(或分数)。
  • DPO (Direct Preference Optimization) 的兴起与核心思想
    • 核心问题:为何不能直接通过梯度上升优化原始的RLHF目标(即偏好模型的似然)?
    • DPO正是基于此思想,直接优化偏好数据。Lambert强调,DPO的数学推导涉及文本概率、log概率比率等,值得深入学习。
    • 关键优势
      1. 实现简单:相比于PPO等需要完整RLHF基础设施的方法,DPO的损失函数易于在现有Transformer框架下实现。
      2. 易于调试和学习
      3. 计算扩展性更好
    • Lambert指出:“DPO仍然有一个奖励模型,这对于数学推导的正确性至关重要,它实际上是将原始语言模型用作一种不同类型的奖励模型。”
    • 结论:DPO是进行对齐研究的理想起点,引发了关于DPO是否优于PPO等其他RL方法的讨论。Lambert认为两者是不同的损失函数,做的事情也不同,但可以获得相似结果,因此应从更简单的方法入手。

DPO模型的实践之路

  • DPO论文发布与实际应用的时间差:DPO论文发布数月后,基于DPO训练的流行模型才开始涌现。
  • 早期指令微调模型 (2023年4月):Alpaca, Vicuna, Koala, Dolly等模型均基于相似技术和迭代,大多使用合成数据,并建立在Llama的首次发布之上。
    • ShareGPT数据:Vicuna使用了ShareGPT数据,这是学术对齐领域首次接触到真实人类交互数据(通过记录Chrome插件用户与ChatGPT的分享数据,存在法律灰色地带)。这些人类提示数据对后续许多模型产生了重要影响。
    • 现在已有更多合规收集的数据集,如LMSYS数据和AI2的WildChat项目。
  • 人类数据的重要性与获取
    • OpenAssistant项目 (2023年4月):一个由社区驱动、投入巨大努力生成提示、回复和偏好对的项目。其数据至今仍被广泛使用,凸显了高质量人类数据创造的难度和价值。
  • 早期RLHF模型 (2023年4月):CarperAI等机构已在训练RLHF模型,并取得了优于Vicuna的成果,但由于资源、代码库开放性等原因,未能立即普及。
  • “Llama 2审查风波”与“无审查”模型:Llama 2因拒绝执行“杀死Linux进程”等指令而引发反弹,催生了一系列所谓“无审查 (uncensored)”模型。
    • Lambert认为“无审查”并非最佳名称,因Llama 2的拒绝可能并非有意审查。
    • 这类模型的目的是研究模型在回答所有问题时的能力边界,作为研究工具具有价值。
    • 许多此类模型通过过滤掉ShareGPT数据中“作为语言模型,我不应回答…”等拒绝式回答来训练。
  • Zephyr模型 (2023年9月)
    • Lambert记忆中首个使用DPO并产生广泛影响的模型,真正让社区认识到DPO的潜力(距论文发表约4个月)。
    • 关键因素
      1. 新的数据集:UltraFeedback数据集,由GPT-4标注的合成生成文本构成的偏好数据集(由OpenBMB创建)。
      2. 实验调优:发现使用极低的DPO学习率(如5e-7,远低于常规的3e-4)对训练聊天模型至关重要。
  • Tulu 2模型 (Zephyr发布后约2个月)
    • 在艾伦人工智能研究所(AI2)进行,旨在系统研究指令微调数据和新兴的偏好微调方法。
    • 将Zephyr的DPO成功经验扩展到更大的700亿参数模型(Llama 2 70B),使用了相同的UltraFeedback数据和低学习率配方,证明了DPO的可扩展性。
    • 此后,DPO模型大量涌现。Lambert提到,直到近期(讲座时点),DPO模型的增长势头才有所放缓。

后DPO时代的研究方向:评估与改进

Lambert指出,尽管DPO模型众多,但感觉像“在黑暗中钓鱼”,因为高质量数据集依然稀缺。如何更系统地进行研究,是当前面临的问题。

  • 核心矛盾:学术界缺乏工业界那样大规模的人类数据,但进行对齐研究的门槛正在降低。
  • 研究问题:如何理解对齐过程?如何改进模型?如何有效评估?
  • 奖励模型评估工具:RewardBench

    • 动机:工业界强调奖励模型的重要性,但缺乏透明的评估工具来衡量奖励模型的好坏。
    • RLHF反馈回路:奖励模型在策略生成、评估、更新的闭环中扮演核心角色,但现有评估工具多关注最终策略,缺乏对奖励模型本身的深入洞察。
    • 奖励模型训练:通常使用成对偏好数据(一个提示,一个选择的答案,一个拒绝的答案),通过损失函数拉开两者得分差距。这类模型通常只训练一个epoch,与标注者的一致性约为70%,这种“噪声”可能反映了偏好的多样性。
    • RewardBench方法:收集一系列提示,为每个提示人工创建“选择”和“拒绝”的答案,然后测试现有奖励模型是否同意人类的判断,并计算准确率。
    • 数据集构成:基于AlpacaEval, MT-Bench, TruthfulQA, HellaSwag, MMLU, BBH, ToxiGen, HH-RLHF, RealToxicityPrompts, Koala, Self-Instruct, Vicuna, LIMA, LongForm, Chatbot Arena Prompts, XSTest, LOMBAR (Princeton的棘手问题数据集)等多种现有评估工具和数据集构建。
    • 主要发现 (截至2024年3月及更新)
      1. 排行榜饱和迅速:最初(2024年3月)排名第五的模型,两个月后跌至第三十一,表明领域研究活跃。
      2. 闭源模型表现:可以评估如OpenAI (GPT-4作为裁判) 和Cohere的奖励模型。结果显示,GPT-4和GPT-4o在此任务上并非最佳,Cohere训练的专用奖励模型表现更优。
      3. DPO模型作为奖励模型:DPO模型本身可以被用作奖励模型。其奖励值是策略模型输出相对于参考模型输出的log概率比率之和,通常为较大的负数。然而,要准确使用DPO模型作为奖励模型,需要访问训练时的参考模型(通常是训练过程中的中间检查点),如果只发布最终DPO模型,则其作为奖励模型的性能会大幅下降。
      4. “Chat Hard”类别的重要性:在RewardBench中,“Chat Hard”(包含如LOMBAR数据集的棘手问题)是唯一未完全饱和的类别,对基准的长期有效性至关重要。例如,区分“关于星星的隐喻”和“关于月亮的隐喻”这类需要细致理解的问题。
      5. 安全性模式:奖励模型在安全相关提示上的表现符合预期。一些模型能很好地处理安全问题(拒绝有害请求,回应边界情况),一些模型倾向于全部拒绝,还有一些“无审查”模型则倾向于全部回应。
      6. Cohere的进步:Cohere在几个月内发布的奖励模型在RewardBench上表现出显著的SOTA(State-of-the-Art)水平。
    • RewardBench 2.0 展望:使评估更困难,更侧重人类评估。关键是建立奖励模型评估与最终策略模型性能之间的联系。
  • DPO与PPO的实证比较 (基于Llama 2 13B模型)

    • 基线:指令微调后的Llama 2 13B在推理、编码、聊天任务上已有显著提升。
    • DPO效果
      • 使用Anthropic的HH-RLHF数据进行DPO,带来小幅提升(该数据被认为噪声较大)。
      • 切换到UltraFeedback数据(用于Zephyr和Tulu 2),带来更明显的提升 (约0-2%)。Lambert强调,在研究领域,这种幅度的提升已相当可观。
    • PPO效果
      • 在相同数据下,PPO通常比DPO表现略好 (约1%的提升)。
      • 奖励模型规模的影响:使用更大的奖励模型(如70B)来指导13B策略模型的PPO训练,并未带来显著的整体性能提升,尽管某些方面(如通过Best-of-N采样评估的奖励模型能力)有所改善。这有些出乎研究团队意料。
      • 增加特定领域提示:向RLHF中增加更多编码和推理提示,仅在相应的特定评估任务上略有改善,但并未提升多任务平均性能,甚至可能导致其他评估指标下降。
    • PPO的复杂性与瓶颈
      • PPO有众多超参数需要调整(正则化、价值函数学习、预热、参数规模等)。
      • 核心瓶颈:PPO在训练过程中需要从当前策略模型生成新的响应(online generation)以刷新数据,这比DPO慢得多。
    • 结论:尽管PPO能带来微小性能提升,但其巨大的工程努力和资源消耗使得研究者质疑其性价比,尤其对学术界而言。 Lambert理解为何OpenAI等机构使用PPO,因为他们能从中榨取更多性能,但过程非常复杂。

在线学习在对齐中的重要性

  • PPO的特殊之处:在线数据生成。
  • 在线数据 (Online Data) vs. 离线数据 (Offline Data)
    • 在线数据定义
      1. 从当前策略模型新鲜生成的数据。PPO在训练时仅从当前模型生成数据,并随时间改变数据分布。而DPO常用的数据集(如UltraFeedback)可能包含来自多种不同模型(Alpaca, Vicuna, GPT-3.5, GPT-4, Llama等)的生成内容。
      2. 随时间刷新数据标签。例如,使用训练好的奖励模型重新标注已有的(选择/拒绝)对。
    • PPO天然具有在线特性,而标准DPO通常是离线的。
  • 近期研究进展 (2024年4月-5月)
    • 多篇论文(理论和实验)指出在线数据对于提升性能至关重要,使用离线数据会导致性能下降。
    • 改进DPO以利用在线数据的方法涌现
      1. 自奖励语言模型 (Self-Rewarding Language Models, Meta):在DPO的每次迭代之间,让模型自身判断哪个答案更好(LLM as a Judge),从而重新标记数据,进行多轮DPO。
      2. 分批次使用数据进行DPO,并更新数据。
      3. 判别器引导的DPO (Discriminator-Guided DPO, D2PO):Lambert参与指导的项目,结合奖励模型和DPO训练目标。实验表明,在DPO框架下,随时间重新训练奖励模型(保持策略和奖励模型同步更新)比仅仅重新标记偏好数据能带来更好的性能,尤其在可控的“闭环任务”(如增加句子中名词数量)中效果明显。
  • Lambert观点:在线方法和新数据集将是“今年的DPO”,即当前研究热点。

工业界的实践:以Meta Llama 3为例

  • Meta在Llama 3的博客文章中提到:“我们的后训练方法是监督微调(SFT)、拒绝采样(rejection sampling)、近端策略优化(PPO)和直接偏好优化(DPO)的组合。”
  • Lambert的解读
    • Meta可能在模型开发的不同阶段,根据模型的不同能力和训练目标,实用主义地选择了当时效果最好的方法
    • 拒绝采样:最简单的训练方法,使用奖励模型对SFT的输出进行排序,然后使用自回归损失函数进行训练。
    • DPO:比PPO简单,可能用于早期或对性能要求不极致的阶段。
    • PPO:当模型能力较强或有更多时间调优时,用于榨取最终性能。
    • 这与Meta在Llama 2论文中描述的迭代过程(收集新的人类数据,训练新模型检查点)相符。每次收集新数据后,都可能尝试不同方法进行微调。

未来展望与核心挑战

  • 数据瓶颈 (Data Bottlenecks)
    • 学术界在数据方面仍非常受限,即使计算资源有限,也几乎尝试了所有可用的开放数据集。
    • 迫切需要新的、能为模型增加不同能力的数据集,以达到类似UltraFeedback的效果。
  • DPO方法的持续演进 (Continued Evolution of DPO Methods)
    • 包括移除参考模型、修改损失函数、使用单边偏好而非成对偏好等。
  • 模型规模的多样性 (Diversity in Model Scales)
    • 应关注70亿和130亿参数之外的模型,特别是向下扩展 (scaling down),研究小模型的对齐。
    • 小模型对齐难度大,因其在许多基准上得分低或随机,在该领域取得突破将非常有影响力。
  • 评估体系的完善 (Improvement of Evaluation Systems)
    • 需要针对我们关心的具体能力进行更细致的评估。
  • 个性化对齐 (Personalized Alignment)
    • 训练对个体用户而言表现良好的模型,而非一个“大一统”的模型,这是与大型科技公司竞争的一个潜在方向。
  • 有用的资源:Lambert推荐了一些跟踪开放模型和数据集的平台。

问答环节摘要

  • 在线DPO的挑战:即使有好奖励模型,实现有效在线DPO的关键在于提示匹配(prompt matching)。PPO中策略生成的提示与奖励模型训练的提示往往相同,这可能导致分布不匹配问题。如果奖励模型真正优秀,在线DPO应能奏效。
  • 超越成对偏好的RLHF:存在多种研究方向:
    • 单边偏好数据(如KTO方法):利用“好/不好”这类简单反馈。
    • 多答案排序学习(如Starling模型使用K-wise偏好):从多个候选中学习。
    • 细粒度偏好学习(如SteerLM):对生成的文本从简洁性、帮助性、诚实性等多维度进行标注和学习。
  • 模型超越人类性能:Lambert认为计算机科学中的经典思想如“搜索”(search),以及强化学习中的“探索”(exploration)将是关键。语言模型需要具备搜索和生成新数据的能力,结合人类在特定难点上的指导。
  • 数据集创建:非常困难。社区努力(如OpenAssistant)影响巨大但难以持续。AI2等机构可能通过特定应用(如科学信息生成)收集数据并开放。学术研讨会和竞赛也是潜在途径。
  • 奖励模型本身的奖励作弊 (Reward Hacking):这是一个RL中的经典问题,由于优化器强大而奖励表示不完美,模型总能找到奖励表示的漏洞。虽然有很多研究致力于缓解,但这是个根本性问题。有时奖励作弊的表现很明显(如模型对所有问题都回答“JavaScript”)。
  • 不同研究机构的对齐研究文化:Lambert认为这反映了机构的文化和投入重点。Hugging Face旨在赋能更多人进行对齐研究,构建生态;AI2更侧重科学研究,理解现象并清晰传达。

总结核心观点

Nathan Lambert的讲座清晰地勾勒了DPO出现后LLM对齐领域的图景。DPO凭借其简洁性和有效性已成为对齐研究的重要基石,但数据稀缺和评估困难仍是主要障碍。RewardBench等工具试图提升评估的透明度。与PPO的比较表明,尽管PPO可能带来边际收益,但其复杂性使其在非工业界环境中应用受限。当前研究热点转向在线学习方法,探索如何更有效地利用模型在训练过程中生成的数据和动态标签,以期突破现有瓶颈。Meta等工业界巨头的实践也反映了结合多种后训练技术的实用主义趋势。未来,对齐研究需要在数据创新、DPO方法演进、小模型对齐、评估体系完善和个性化等方向持续探索。