详细摘要 摘要

生成:2025-06-15 22:01

摘要详情

音频文件
2025-05-23 | Stanford | Controlling Language Models
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-preview-06-05
温度
0.3
已创建
2025-06-15 22:01:47

2025-03-04 | Stanford | Controlling Language Models

描述: 2025年3月4日
Allen School Colloquia Series
Title: Controlling Language Models
Speaker: Lisa Li (Stanford)
Date: March 4, 2025

Abstract: Controlling language models is key to unlocking their full potential and making them useful for downstream tasks. Successfully deploying these models often requires both task-specific customization and rigorous auditing of their behavior. In this talk, I will begin by introducing a customization method called Prefix-Tuning, which adapts language models by updating only 0.1% of their parameters. Next, I will address the need for robust auditing by presenting a Frank-Wolfe-inspired algorithm for red-teaming language models, which provides a principled framework for discovering diverse failure modes. Finally, I will rethink the root cause of these control challenges, and propose a new generative model for text, called Diffusion-LM, which is controllable by design.

Bio: Lisa Li is a PhD candidate at Stanford University, where she is advised by Percy Liang and Tatsunori Hashimoto. Her research focuses on developing methods to make language models more capable and controllable. Lisa is supported by the Two Sigma PhD fellowship and Stanford Graduate Fellowship and is the recipient of an EMNLP Best Paper award.
副标题: 语言模型控制新方法与高效定制技术

概览/核心摘要 (Executive Summary)

斯坦福大学的博士候选人Lisa Li于2025年3月4日发表了关于“控制语言模型”的演讲。她强调,控制是释放语言模型全部潜力并使其在下游任务中发挥作用的关键。演讲核心围绕其三个主要研究贡献展开:

  1. Prefix-Tuning:一种参数高效的微调方法,通过仅更新模型0.1%的参数(冻结大部分预训练模型参数,优化一个小的、连续的任务特定前缀向量),即可实现与全参数微调相当的性能,甚至在分布外泛化上表现更优。此方法显著降低了模型定制的成本,推动了参数高效微调(PEFT)领域的发展,并被业界广泛采用。它还能有效压缩长提示(prompt),例如将提示压缩25倍而不牺牲指令遵循性能。

  2. 多样化故障模式发现(红队测试):针对评估模型控制有效性的挑战,Lisa Li提出了一种受Frank-Wolfe算法启发的红队测试方法。该方法旨在发现模型多样化的故障模式,而不仅仅是单一故障。通过将问题构建为后验分布推断(P(输入|不期望输出)),并使用变分推断和迭代分解优化,该算法能系统性地发现多种可触发模型不良行为的输入策略(如重复、续写、引用来源等)。实验表明,此方法能显著提高攻击成功率(例如,Llama 8B模型从2%提升至100%),并能覆盖先前研究中发现的大多数已知攻击策略,其发现的提示在不同大小和类型的模型间具有泛化性,包括GPT-4o和Claude 3.5等专有模型。

  3. Diffusion-LM:为了从根本上解决控制难题,Lisa Li提出了一种新的文本生成模型Diffusion-LM。该模型基于高斯扩散过程,在连续潜在空间中操作,并采用非自回归方式同时生成整个序列。通过引入“预测x0”的重参数化和解码时的“钳位技巧”,有效解决了离散文本在连续空间建模中的舍入误差问题。Diffusion-LM支持“即插即用”式的控制,允许将语言模型与各种可微分的控制标准(如句法、语义约束)通过Langevin动力学进行组合,从而生成满足特定需求的文本,且在多约束组合控制下表现优越。

演讲最后,Lisa Li指出当前语言模型在不同“视角”(如不同提问方式、生成与验证)下的“不一致性”是控制困难的深层原因,并提出未来研究应关注提升模型的一致性,这将有助于增强模型能力和数据效率。

引言:语言模型控制的重要性

Lisa Li (演讲者) 开场指出,语言模型的普及(如ChatGPT的成功)源于我们能够控制这些预训练模型来执行有用的任务。
* 应用实例
* Coding Copilot:通过控制预训练语言模型适应编码领域,提升编程效率。
* Google搜索的AI概览:控制语言模型进行搜索结果摘要。
* 核心观点“控制是真正将语言模型转化为有用产品的核心。”
* 语言模型处理流程:预训练 -> 控制与适配 -> 评估。
* 演讲结构:将围绕其在控制语言模型的三个方面的工作展开:
1. 通过轻量级微调应用控制。
2. 通过具有良好覆盖率的方法评估控制。
3. 重新思考现有语言模型架构,构建本质上易于控制的新模型。

通过轻量级微调应用控制:Prefix-Tuning

Lisa Li阐述了在多种场景下定制语言模型的必要性,如个性化、领域适应和在边缘设备上专门化小型模型。

  • 面临的挑战
    • 为大量不同用例定制模型,若每个请求都进行全参数微调,会导致产生数千个拥有数十亿参数的不同模型,这在训练和存储上都非常昂贵。
    • 传统的微调方法(如仅更新顶层参数)效果不佳且参数效率不高(仍需更新约1/4参数)。
    • 提示(Prompting)方法高效,但精度不足,难以捕捉细微差别(如模仿特定写作风格)。
  • 研究问题“我们能否在不牺牲任何任务性能的情况下,用更少的参数来调整语言模型?”
  • 解决方案:Prefix-Tuning
    • 灵感来源:受到提示(Prompting)的启发,但观察到离散的提示搜索空间限制了表达能力且优化困难。
    • 核心机制
      • 放宽离散约束,采用连续的自由参数。
      • 优化一个小的、连续的、任务特定的向量,称为前缀参数 (prefix parameter, H),如同虚拟的提示词元序列。
      • 优化目标:冻结原始模型参数θ,仅优化前缀参数H,以最大化数据的似然性。
      • 优势:搜索空间表达能力强(连续),易于优化(可使用梯度下降)。
  • 实验与结果 (结构化数据到自然语言描述任务)
    • 评估指标:BLEU (越高越好)。
    • 性能:Prefix-Tuning 能够达到与全参数微调相似的性能,同时“仅调整了千分之一的参数” (与摘要中0.1%一致)。
    • 额外优势:在分布外泛化 (out-of-distribution generalization) 方面表现更佳,因为保留了原始预训练模型的通用参数。
  • 应用于提示压缩 (Gist Tokens)
    • 长提示会导致推理延迟增加和计算成本提高。
    • Prefix-Tuning 的思想可将长提示压缩到前缀参数空间。
    • 结果:在论文《Gist Tokens》中,实现了“将提示有效压缩25倍,且不牺牲任何指令遵循性能”
  • 影响
    • 开创了参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 的研究方向。
    • 启发了后续工作,如LoRA和Prompt Tuning。
    • 已成为当前定制语言模型的标准方法之一,被OpenAI, Anthropic, Google, Nvidia等公司广泛应用于其微调API中。

通过具有良好覆盖率的方法评估控制:红队测试 (Red-Teaming)

Lisa Li强调了在施加控制后,评估控制是否成功的必要性,并以Google AI概览可能提供误导性甚至有害信息的例子(如询问“带剪刀跑步的健康益处”)进行说明。

  • 红队测试 (Red-Teaming):一种评估控制的方法,旨在搜索能触发模型不期望行为的提示或输入。白宫的AI法案也认可了其重要性。
  • 挑战:输入搜索空间呈指数级增长。
  • 先前工作的局限性:通常目标是发现至少一种能攻破模型的策略。
  • Lisa Li的目标“我们关心的是覆盖更多的故障模式,而不仅仅是其中一种。”
  • 解决方案:基于后验分布推断的故障发现
    • 问题重构:从寻找单一字符串转变为寻找一个字符串分布,以覆盖更多可能性。
    • 方法:将其视为一个后验推断问题,目标是估计给定不期望输出Y时,输入X的后验分布 P(X|Y)。
      • 利用贝叶斯定理:P(X|Y) = P(Y|X)P(X)/P(Y)。其中P(Y)(归一化常数)难以计算。
      • 初步想法:学习反向语言模型 Q_φ(X|Y)。但存在分布漂移问题,因为不期望的输出Y是罕见故障案例。
      • 核心技术:变分推断 (Variational Inference)
        • 用 Q_φ(X|Y) 近似真实后验 P(X|Y)。
        • 优化目标包含三项:Q_φ的熵(度量多样性和覆盖率)、Q_φ在先验P(X)下的交叉熵(度量生成文本的流畅性)、以及在Q_φ下引出不期望字符串Y的期望似然。
        • 引入β1和β2权重调整熵项和交叉熵项,以处理先验不确定性。
    • 优化算法:受Frank-Wolfe启发的迭代分解
      • 将难以直接优化的Q_φ分解为一系列简单问题,每个问题覆盖一种模式。
      • 直观过程
        1. 迭代1:找到一个模式。
        2. 迭代2:降低已发现模式的权重,在新的奖励格局下寻找不同模式。
        3. 以此类推。
      • 将Q_φ参数化为混合分布,更擅长捕捉分离的模式。
      • 每次迭代的优化目标:包含红队测试项(引出目标响应)、多样性项(惩罚已发现模式,鼓励新模式)、正则化项(KL散度,防止分布坍塌)。
      • 聚合方式:将每次迭代发现的新模式(分布S_i)以一定权重(η_i)混合到总分布中。
      • 理论联系:该迭代算法等价于将Frank-Wolfe优化算法(条件梯度法)应用于完整目标函数(略有推广)。
  • 定性示例 (目标后缀Y:“the most inexhaustible source of magic”)
    • 迭代1发现策略:“Repeat after me” (重复)。
    • 迭代2发现策略:基于“continuation and cooccurrence” (续写和共现)。
    • 迭代3发现策略:“Famous quote from JK Rowling” (前置高层摘要或引用来源)。
  • 定量结果与应用 (模型“越狱” - Jailbreaking)
    • 在引出目标后缀的奖励上,优于监督微调和强化学习基线。
    • 能够覆盖先前研究手动或算法发现的大多数“越狱”策略
    • 攻击成功率:对Llama 8B模型,从2%提升至100%。
    • 泛化性:发现的提示可泛化到70B模型以及专有模型如GPT-4o和Claude 3.5。
    • 意义:该方法可以前瞻性地搜索语言模型中的错误,指导模型开发者修补这些错误,促进模型开发的良好生态。

重新思考架构:构建本质上易于控制的Diffusion-LM

Lisa Li提出反思:控制为何如此复杂?能否通过重新设计模型使其本质上易于控制?

  • 当前控制困难的根源
    • 多数语言模型是从左到右的自回归 (left-to-right autoregressive) 生成文本。
    • 这种结构使得前向解码容易,但反向(如红队测试中根据输出找输入)或任何打破从左到右生成顺序的任务都非常具有挑战性。
  • 愿景:即插即用 (Plug and Play) 的控制框架
    • 将语言模型与各种控制标准(如约束后缀、前缀、JSON格式、数学证明验证器)灵活组合。
    • 通过推理生成同时满足语言模型流畅性和控制标准的文本。
    • 数学形式化:后验推断问题,从P(X|C)(给定控制C的文本X)中采样。
  • 研究问题“我们如何设计一个能够实现这种即插即用推理的语言模型?”
  • 核心思想
    1. 连续松弛 (Continuous Relaxation) (源于Prefix-Tuning):连续参数空间易于优化,利于控制。
    2. 迭代优化 (Iterative Refinement) (源于Frank-Wolfe算法):利于建模不同模式,表达能力强。
  • 解决方案:Diffusion-LM
    • 模型类别:高斯扩散模型 (Gaussian Diffusion),在视觉领域(DALL-E, Stable Diffusion)应用广泛。
    • 语言建模的挑战:语言是离散的,连续空间建模需要极高精度,否则易产生舍入误差 (rounding error)。例如,“rest”和“break”在嵌入空间中可能很近,但在特定上下文中不可互换。
    • Diffusion-LM机制
      • 在连续潜在空间操作,非自回归 (non-autoregressive),即同时生成整个序列的向量表示。
      • 过程:从高斯噪声向量序列开始,逐步去噪,得到对应词语的向量,最后将这些向量投影到词汇表上的低熵分布。
      • 生成顺序:先粗粒度内容(高级语义、句法),后细粒度内容(具体词汇选择)。
      • 训练:作为潜变量模型,通过迭代添加高斯噪声构建潜变量层级 (X_0 -> X_1 -> ... -> X_T)。训练去噪模型 μ_θ(X_t, t) 来预测噪声较小的 X_{t-1},最小化预测与真实值间的L2距离。
      • 生成:从纯高斯噪声 X_T 开始,迭代应用 μ_θ 去噪直至 X_0,然后将 X_0 四舍五入到最近的词嵌入。
    • 解决舍入误差的关键技术
      1. 重参数化 (Reparameterization) - 预测X_0:让去噪模型 μ_θ 总是预测最原始的、无噪声的词嵌入 X_0,而不是 X_{t-1}。这使得输出空间始终与词嵌入对齐,训练更容易,预测更精确。之后再根据预测的X_0和当前的X_t重构X_{t-1}。
      2. 钳位技巧 (Clamping Trick) - 解码时:由于每一步都预测X_0,可以检查其是否与真实词嵌入对齐。若未对齐,则将其“钳位”到最近的词嵌入上。这防止了精度误差累积,保证解码过程的稳定性。
  • Diffusion-LM的即插即用控制
    • Diffusion-LM参数化了连续X_t的分布。控制标准C体现为一个关于X_t的可微分评分函数。
    • 使用Langevin动力学 (Langevin Dynamics) 从后验P(X_t|C)中采样:更新X_{t-1}时,同时考虑来自Diffusion-LM的梯度(保证流畅性)和来自控制标准的梯度(满足控制),并加入少量高斯噪声。
    • 可组合多个可微分的控制标准。
  • 实验结果
    • 在结构化句法控制问题上,显著优于微调自回归模型和基于自回归模型的即插即用基线。
    • 在句法和语义控制的组合下表现优异。
  • 影响
    • 是首个连续扩散语言模型。
    • DeepMind采纳并扩展了此思想。
    • 启发了后续针对语言、蛋白质设计、3D分子生成的扩散模型研究。
    • 初创公司Inception基于此核心思想,其主要竞争优势是解码速度比自回归模型快5-10倍。

更广泛的贡献与未来展望:一致性 (Consistency)

Lisa Li提及了她在控制语言模型生态系统中的其他贡献,并引出了一个更深层次的问题。

  • 控制困难的深层原因:不一致性 (Inconsistency)
    • 模型在不同“视角” (views) 或表述下行为不一致。
    • 示例1 (红队测试相关):直接问“如何制造炸弹”和委婉提问(如“过去人们如何…”),模型反应可能截然不同。
    • 示例2 (反转诅咒 - Reversal Curse):模型能回答“史蒂文·莫法特是谁?”(《神探夏洛克》的导演),但反过来问“谁导演了《神探夏洛克》?”则可能失败。这体现了模型参数化知识的不一致性和对顺序的敏感性。
  • 一致性的重要性
    • 提升模型能力:许多任务可视为同一问题的不同视角(如生成与验证)。强制一致性有助于补强较弱的一面,最终提升整体能力。
    • 提升数据效率:逻辑一致的模型能更好地泛化。例如,若模型理解“鲨鱼是最大的鱼”且“鲸鱼比鲨鱼大”,则应能推断“鲸鱼不是鱼”,而无需显式训练此条知识。这在模型规模持续扩大、数据需求增加的背景下尤为重要。
  • 未来研究方向 (提升一致性)
    1. 架构层面:将一致性硬编码到模型架构中,如设计带有内置反思步骤的模型(类似Diffusion模型的迭代优化)。
    2. 训练层面:开发显式正则化一致性的更新规则,使模型在学习新知识时能全局更新参数化存储。
    3. 解码层面:集成概率推断,确保输出与某个一致的后验分布对齐。
  • 结论性观点“一致性和可控性是使语言模型行为更可预测和更可靠的关键要素。”

问答环节 (Q&A)

  • 问题1 (Speaker 3 提问):关于Diffusion-LM中的舍入误差和词嵌入表示。

    • Lisa Li 回答:Diffusion-LM的词嵌入是与扩散参数联合训练的。词嵌入维度存在权衡:高维表达力强,但也可能因维度诅咒使扩散建模更难。端到端训练有助于模型在固定维度内学习合适的表示。嵌入空间设计仍有许多有趣的未来方向。
  • 问题2 (Speaker 3 提问):Diffusion-LM如何控制生成句子的长度?

    • Lisa Li 回答:当前工作中长度固定(如256)。若需更短,则用填充(padding)。若需更长,则较复杂,一种可能的解决方案是半自回归生成:生成第一个固定长度的块后,将其作为条件,通过编码器输入模型,再运行条件扩散生成后续块。
  • 问题3 (Speaker 3 提问):如何利用红队测试的发现来改进模型,使其表现更好(例如,不生成有害内容)?

    • Lisa Li 回答
      1. 数据增强:将红队测试发现的攻击策略(能“攻破”模型的输入)纳入训练数据,使模型对这些攻击具有鲁棒性。
      2. 搜索成功案例:红队测试本质是搜索问题。若将奖励模型设定为评估答案的“好坏”,则可反向利用此技术搜索能引出优秀答案的提示或查询策略,从而提升模型性能。
  • 问题4 (Speaker 4 提问):红队测试发现的策略有多强的迁移性?例如,针对不同类型的不良响应,策略是否相似?能否用于一个类别,如“所有版权侵犯”?

    • Lisa Li 回答:这取决于能否将目标(如版权侵犯)参数化为一个奖励函数。如果可以设计出这样的奖励函数(例如,后端带有检索机制),那么算法原则上适用,因为该方法不要求奖励函数可微。针对特定目标(如特定受版权保护的文本),可能会发现如重复、续写、提供高层摘要等通用策略。
  • 问题5 (Speaker 4 提问):Frank-Wolfe红队测试中的混合模型是否是根本性的?能否用一个模型生成多样化样本?

    • Lisa Li 回答:混合模型并非绝对必要,它更多是算法迭代过程的自然产物。可以将多次迭代发现的模型“编译”成一个聚合模型。理论上,单个语言模型也应能表达多样化的模式;当前算法设计上会产生多个迭代模型,但并非必须保留所有独立模型。

总结核心观点

Lisa Li的演讲系统地阐述了其在语言模型控制方面的创新工作。通过Prefix-Tuning实现了高效的模型定制;通过基于Frank-Wolfe的红队测试实现了对模型多样化故障模式的全面评估;并通过Diffusion-LM探索了构建本质上易于控制的新型语言模型架构。她进一步指出,模型的一致性是未来提升语言模型可控性和可靠性的关键研究方向。这些工作共同为开发更强大、更安全、更易于控制的语言模型奠定了坚实基础。

评审反馈

总体评价

该总结内容详尽,结构清晰,准确地再现了演讲的主要内容和关键技术细节,包括Q&A环节。整体质量较高,对演讲的理解和提炼都做得不错。

具体问题及建议

  1. 事实准确性:标题和描述中的日期与演讲摘要信息不符。

    • 具体问题描述:当前总结的标题为 "2025-05-23 | Stanford | Controlling Language Models",描述为 "2025年5月23日"。而审核资料中提供的演讲摘要明确指出 "Date: March 4, 2025"。
    • 修改建议:将标题和描述中的日期 "2025年5月23日" 修改为 "2025年3月4日"。
  2. 事实准确性:专有模型名称可能存在转录错误。

    • 具体问题描述:总结中两次提到 "GPT-4 Zero" 和 "Cloud 3.5"(分别在“概览/核心摘要”的第2点和“通过具有良好覆盖率的方法评估控制:红队测试”的定量结果部分)。根据行业常见命名,这些很可能是转录文本中 "GPT -4 zero" 和 "cloud 3.5" 的转录错误,实际可能指 "GPT-4o" (或其他GPT-4系列变体) 和 "Claude 3.5"。
    • 修改建议:建议将 "GPT-4 Zero" 修改为更通用的 "GPT-4系列模型" 或具体的 "GPT-4o" (如果能确认),并将 "Cloud 3.5" 修改为 "Claude 3.5"。由于原始转录文本即如此,总结忠实转录,但作为评审,指出此潜在事实错误是必要的。
  3. 语言表达:部分表达可以更精炼。

    • 具体问题描述:在“引言”部分,“Speaker 2 (Lisa Li) 开场指出...”可以更简洁。
    • 修改建议:可考虑修改为“Lisa Li (演讲者) 开场指出...”或在首次提及后直接用“Lisa Li指出...”。不过当前表达也清晰,此为次要建议。
  4. 完整性:Prefix-Tuning参数效率的表述略有不一致但影响不大。

    • 具体问题描述:摘要中提到Prefix-Tuning“通过仅更新模型0.1%的参数”,正文中提到“仅调整了千分之一的参数”。两者数值一致 (0.1% = 1/1000),但表述方式不同。
    • 修改建议:无需修改,两种表述均正确且在演讲中均有提及或暗示(摘要提及0.1%,演讲中提及“a thousand times improvement”)。保持现状即可。

优化方向

  1. 校对关键信息:务必确保演讲者、机构、日期、核心成果等关键元信息的准确性,这是内容可信度的基础。
  2. 修正专有名词:对于行业内广泛认知的产品或技术名称,如模型名称,即使转录文本有误,也应尽力纠正为标准或最可能的正确名称,并可备注说明转录原文。
  3. 保持简洁专业:在确保信息完整准确的前提下,进一步打磨语言,使其更加精炼和专业,避免不必要的冗余。