详细摘要 摘要

生成:2025-06-09 21:44

摘要详情

音频文件
【生成式AI时代下的机器学习(2025)】第十一讲:今天你想为 Foundation Model 装备哪些 Task Vector?浅谈神奇的 Model Merging 技术
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-preview-06-05
温度
0.5
已创建
2025-06-09 21:44:36

概览/核心摘要 (Executive Summary)

本次演讲详细介绍了一种名为模型合并 (Model Merging) 的前沿技术,该技术允许在不进行额外训练和无需访问原始训练数据的情况下,通过简单的向量加减法来组合、移除或迁移大型语言模型(特别是Foundation Model)的能力。其核心思想是计算一个模型相对于其基础模型(Foundation Model)的参数变化,这个变化量被称为“任务向量” (Task Vector),它代表了模型习得的特定技能。

讲座阐述了任务向量的三大主要应用:
1. 技能相加:将代表不同能力的任务向量(如语言能力与安全对齐能力)相加,创造出兼具多种特长的新模型。
2. 技能相减:通过减去某个任务向量,实现“机器忘却”(Machine Unlearning),让模型遗忘特定知识(如脏话或有版权内容)。
3. 技能类比:利用向量类比(A-B ≈ C-D)的逻辑,在没有特定任务数据的情况下,通过迁移其他任务的向量关系,无中生有地为模型赋予新能力,例如将“合成语音”模型校正为具有“真实语音”表现的模型。

尽管该技术展现了巨大潜力,但讲者强调其并非总是成功。合并的成败关键在于不同任务所修改的参数是否重叠。当任务修改的参数集重叠度低时,合并效果更好。因此,当前的研究趋势是发展稀疏微调技术(如DARE、TIES),使每个任务只改变少量参数。此外,实验证明模型规模越大,合并成功率越高。未来,该技术若发展成熟,可能催生“任务向量商店”的生态,开发者可以像装备游戏道具一样为模型添加或交换能力,从而改变AI模型的开发与协作模式。


模型合并 (Model Merging) 的核心概念

模型合并是一种在生成式AI时代极具潜力的技术,它允许用户直接通过参数运算来修改和组合模型的能力,而无需进行耗费算力的再训练。

  • 基本情景:假设用户A有一个基于某个Foundation Model(如Llama)微调出的模型(具备能力A),而用户B基于同一个Foundation Model微调出了另一个模型(具备能力B)。用户A希望自己的模型也能拥有能力B。
  • 传统方法的困境
    • 需要获取用户B的训练数据,但这通常因隐私或商业原因难以实现。
    • 需要将新旧数据混合后重新训练,消耗大量计算资源。
    • 容易发生灾难性遗忘 (Catastrophic Forgetting),导致模型丧失原有能力。
  • 模型合并的解决方案
    1. 定义参数
      • Foundation Model的参数:θ
      • 用户A模型的参数:θ_A
      • 用户B模型的参数:θ_B
    2. 计算任务向量 (Task Vector):任务向量代表了模型通过微调获得的特定能力。能力B对应的任务向量为:
      > τ_B = θ_B - θ
    3. 合并模型:将任务向量 τ_B 直接加到用户A的模型参数上:
      > θ_new = θ_A + τ_B
    4. 结果:新模型 θ_new 将同时具备能力A和能力B。
  • 核心前提:此技术能够成功应用的前提是,所有参与合并的模型(如θ_A和θ_B)都必须是从同一个Foundation Model微调而来。这使得模型合并成为Foundation Model时代的特色技术。

讲者强调:“这个想法呢听起来非常的直观...但...这怎么可能会work呢?...但是我告诉你,这个test vtor神经网络的参数岂是如此不变之物,他就是可以加加减减,就是这么神奇。”


任务向量 (Task Vector) 的三大应用

通过对任务向量进行不同的算术运算,可以实现多样化的模型能力定制。

1. 技能相加:组合不同能力

通过将多个任务向量叠加到一个基础模型上,可以创造出集多种能力于一身的“超级模型”。

  • 公式θ_new = θ + α·τ_A + β·τ_B (其中α和β为可调节的权重)。
  • 成功案例
    • 中文能力 + 安全对齐 (Alignment)
      • 问题:直接用中文数据微调Llama 2 Chat模型,会导致其原有的安全对齐能力大幅下降。
      • 解决方案:分别计算出“中文能力”和“安全对齐能力”的任务向量,然后将它们同时加到Llama 2 Base模型上。
      • 成果:得到一个既能流利使用中文回答,又保持了安全对齐能力的新模型。此方法具有高度通用性,已在Llama 3、Mistral模型以及韩语、日语等场景得到验证。
    • 评估能力 + 专业能力
      • 将一个擅长评估(Reward Model)但不擅长写代码的模型,与一个擅长写代码的模型合并,可以得到一个能够有效评估代码质量的新Reward Model。
      • 将一个只能处理文本的Reward Model,与一个具备视觉能力的多模态模型合并,可以创造出一个能够评估图像相关回复的“带眼睛”的Reward Model。

2. 技能相减:实现“机器忘却” (Machine Unlearning)

如果加上一个任务向量能赋予模型某项技能,那么减去它就能让模型忘掉该技能。

  • 应用场景:从模型中移除不当内容(如脏话、偏见)或受版权保护的知识。
  • 成功案例(圣人模型)
    • 目标:让一个中文模型(台德模型)忘掉“脏话”。
    • 流程
      1. 先用包含大量脏话的“肮脏资料”微调Llama 2 Base,得到一个“很会说脏话的模型”。
      2. 计算出代表“说脏话”能力的任务向量 τ_dirty
      3. 从台德模型的参数中减去该向量:θ_saint = θ_taide - τ_dirty
    • 成果:得到的“圣人模型”对脏话完全无知。当被问及“黑鬼”是什么时,它完全无法理解其含义,并开始胡乱编造,称其为“日本动漫里面常见的一种角色形象”,如《火影忍者》中的神秘组织。

3. 技能类比:无中生有创造新能力

利用向量空间中的类比关系 A:B :: C:D,可以在缺少D任务数据的情况下,通过其他三个任务推导出D模型。

  • 公式τ_D ≈ τ_C + (τ_B - τ_A)
  • 成功案例(语音识别系统优化)
    • 目标:提升语音识别系统在某个专业领域(如法律、金融)的准确率,但缺乏该领域的真实语音数据。
    • 设置
      • 任务A:通用领域的合成语音数据训练的模型。
      • 任务B:通用领域的真实语音数据训练的模型。
      • 任务C:目标专业领域的合成语音数据训练的模型(合成数据可通过TTS技术生成)。
      • 任务D(目标):在目标专业领域的真实语音数据上训练的模型(我们没有真实数据)。
    • 流程
      1. 计算“真实化”向量:τ_real = τ_B - τ_A。该向量代表了从“合成语音”到“真实语音”的校正方向。
      2. 将此校正向量应用到任务C的模型上,得到近似的任务D模型。
    • 成果:经过校正后的模型,其表现“就好像是在真实语音上训练过一样”,在多个领域的语音识别错误率显著降低。

模型合并的挑战与成功关键

讲者明确指出,模型合并并非万能钥匙,实践中存在许多失败案例。

  • 失败的核心原因:参数干扰
    • 当两个不同的任务修改了模型中相同或高度重叠的参数时,它们的向量简单相加会导致互相干扰,无法同时保留各自的能力。
  • 成功的关键因素
    1. 参数修改的非重叠性:如果两个任务在微调时改变的是模型中完全不同的参数子集,那么合并就极有可能成功。
    2. 稀疏化微调 (Sparse Fine-tuning):为了减少参数重叠,当前的研究趋势是让每个任务只修改尽可能少的参数。相关技术包括 DARETIES
    3. 模型规模:实验数据显示,模型越大,合并的效果越好
      • 数据:一篇论文对比了1B、8B、24B到64B参数规模的模型,发现在多种合并方法下,模型规模越大,合并后的性能(纵轴数值)越高。这可能是因为大模型有更多神经元,可以实现更精细的“功能分区”,减少任务间的干扰。

重要提醒“model merging 并不一定总是会成功的。虽然前面有很多成功的例子,但是你其实可以找到更多失败的例子...如果你没有做什么特别的事情,单纯把两个model的test直接加起来的话,其实你也不会得到特别好的结果的。”


未来展望:任务向量商店与模块化AI

如果模型合并技术发展成熟,将可能彻底改变AI生态。

  • “任务向量商店” (Task Vector Store)
    • 未来,用户可以像在应用商店下载App或在网游中购买装备一样,从一个商店中选择代表各种能力的“任务向量”。
    • 用户可以为自己的Foundation Model“装备”上这些向量,快速定制出具备特定功能的模型,而无需任何训练,仅需极少的计算资源进行参数加减。
  • 对开发模式的影响
    • 专业化分工:小型团队或个人开发者可以专注于打造高质量的单一任务向量,而不是追求开发一个全能模型。
    • 促进协作与交易:公司之间可以交换或贩售任务向量,从而共享模型能力,而无需交换敏感的训练数据,解决了数据隐私和版权问题。

核心结论

模型合并是一项革命性的技术,它通过对“任务向量”的算术操作,为AI模型的定制化提供了前所未有的灵活性和效率。其核心在于利用同一Foundation Model的共享结构,实现能力的模块化组合、移除和迁移。尽管目前该技术仍面临参数干扰等挑战,但通过稀疏化微调和利用更大规模的模型等方法,其成功率和稳定性正在不断提升。未来,一个围绕任务向量交易和组合的全新AI生态系统有望形成,极大地降低AI应用的开发门槛。