应用深度学习 | 陈縕侬 | ADL 8.2: Parameter-Efficient Fine-Tuning (Adapter, LoRA) 如何低成本微调模型

Detailed Summary 摘要

生成：2025-06-07 14:20

摘要详情

音频文件: 应用深度学习 | 陈縕侬 | ADL 8.2: Parameter-Efficient Fine-Tuning (Adapter, LoRA) 如何低成本微调模型
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
创建时间: 2025-06-07 14:20:04

摘要内容

概览/核心摘要 (Executive Summary)

本次演讲深入探讨了在大型语言模型时代，如何通过参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）技术，以较低的计算成本调整模型以适应特定任务。演讲指出，传统研究领域过度关注模型精度（Accuracy）而忽略了效率（Efficiency），导致训练成本高昂，这种趋势有利于资源雄厚的业界，而不利于学术界。

为解决此问题，演讲重点介绍了两种主流的PEFT方法：Adapter Tuning和LoRA (Low-Rank Adaptation)。
1. Adapter Tuning的核心思想是冻结预训练模型的绝大部分参数，仅在模型层与层之间插入少量可训练的“适配器”模块。这些适配器是任务专属的，可以“即插即用”，从而在不改变原始模型的情况下实现对特定任务的适配，同时极大节省了存储空间。
2. LoRA则基于一个关键假设：模型在微调过程中的权重更新矩阵具有“低内在秩”（Low Intrinsic Rank）。因此，它通过学习两个低秩矩阵来模拟完整的权重更新，将需要训练的参数数量减少了几个数量级。实验数据显示，在GPT-3 (175B)模型上，LoRA仅用约4.7M的可训练参数，就能达到与全量微调（175B参数）相媲美的性能。

演讲最后总结，没有一种PEFT方法是万能的，不同方法各有优势，因此出现了结合多种方法的融合策略。此外，为了提升模型的泛化能力以应对未知任务，需要通过收集多样化的指令数据进行训练，这正是GPT-3.5等模型采用人类反馈指令微调（Instruction Tuning）的核心思路。

参数高效微调的动机与背景

问题核心：直接微调（Fine-Tuning）一个包含海量参数的大型语言模型，计算成本和资源消耗巨大，对于多数研究者和开发者而言并不可行。
学术界与工业界的失衡：
- 演讲者引用分析指出，AI领域的研究论文过去更侧重于提升模型性能（Accuracy），而较少关注训练效率（Efficiency）。
- “大部分的这些paper focus比较多是focus在accuracy instead of efficiency，就是大家只着着重在我的performance到底怎样。”
- 这种以性能为导向的范式，使得拥有更多计算资源的大型科技公司在竞争中占据绝对优势，限制了学术界的发展。
发展趋势：为了应对高昂的训练成本，学术界和业界开始积极探索更经济、高效的微调方法，使得关注训练效率的论文数量显著增加。

方法一：Adapter Tuning (适配器微调)

核心思想：在不改动原始预训练模型（图中“橘色”部分）的前提下，向其内部结构中插入一些小型的、可训练的神经网络模块，即“适配器”（Adapter，图中“紫色”部分）。
工作原理：
1. 冻结原模型：预训练模型（如Transformer）的权重保持不变。
2. 插入适配器：在Transformer的每个块（Block）中的注意力层（Attention）和前馈网络（Feed-forward Network）之后，插入适配器模块。
3. 学习残差：适配器的目标是学习一个对原始输出的增量调整（ΔH）。假设原始输出为H，微调后的理想输出为H'，则H' = H + ΔH。适配器通过训练来模拟生成ΔH，然后通过残差连接（Residual Connection）将其加回到原始H上，从而得到H'。
优点与应用：
- 模块化与可插拔：每个下游任务可以训练一个独立的适配器。使用时，只需将相应的适配器“插入”模型即可，非常灵活。
- 存储高效：只需为每个任务存储小体积的适配器参数，而无需保存整个模型的副本，极大地节省了存储成本。
- 鲁棒性强：由于原始模型被冻结，避免了在微调过程中对模型通用能力的破坏（即“灾难性遗忘”），模型更加稳健。

方法二：LoRA (Low-Rank Adaptation 低秩适配)

核心思想：LoRA基于一个关键假设：大型语言模型在针对特定任务进行微调时，其权重的变化量（ΔW）是一个具有“低内在秩”（Low Intrinsic Rank）的矩阵。这意味着复杂的、高维度的权重调整，可以被一个更简单的、低维度的变化来近似表示。
> “他觉得如果我们现在在做一个adaptation...它调整的状况比较像是一个high level的方向...这个low rank对应的其实就像是在这些...里面的一个eigenvector。”
工作原理：
1. 权重更新分解：LoRA不直接学习巨大的权重更新矩阵ΔW，而是将其分解为两个更小的低秩矩阵A和B的乘积（ΔW ≈ B * A）。
2. 降维与升维：
  - 矩阵A将高维的输入特征投影到一个非常低的维度空间（例如，从d维降到r维，r << d），形成一个“瓶颈”（Bottleneck）。
  - 矩阵B再将这个低维表示投影回原始的高维空间。
3. 高效训练：在微调过程中，原始模型权重W保持冻结，只有低秩矩阵A和B的参数被训练。这使得需要训练的参数量急剧减少。
性能与数据：
- 实验案例：在 GPT-3 (175B) 模型上进行的实验。
- 参数对比：
  - 全量微调 (Full Fine-tuning)：需要训练 175B 个参数。
  - LoRA：根据选择的秩（rank）的大小，仅需训练 4.7M 到 37.7M 的参数。
- 结论：实验图表显示，LoRA（图中粉色线）在性能上几乎可以与全量微调相媲美，但其所需训练的参数量（成本）却极低。它在性能和效率之间取得了出色的平衡，并且相比其他一些方法更不容易过拟合。

不同高效微调方法的比较与融合

争议与不确定性：没有万能方法
- 一篇论文对多种PEFT方法（包括全量微调、Adapter、Prefix-Tuning、LoRA等）在多个任务上进行了公平比较。
- 核心结论：> “没有一个最好，就是每一种都有各自擅长的地方。” 这表明不存在一种在所有场景下都最优的PEFT方法。
决策与建议：融合策略
- 鉴于单一方法的局限性，研究者提出了一种融合模型，将Adapter、Prefix-Tuning等多种方法集成在一起。
- 该模型通过一个门控机制（Gating Mechanism）来自动学习在特定情境下应该激活哪一种或哪几种微调方法。
- 实验证明，这种组合方法的性能优于任何单一方法，但代价是模型结构更复杂、整体参数量更大。

超越已知任务：提升模型的泛化能力

挑战：PEFT解决了在已知任务上的高效微调问题。但对于一个“通才”（Generalist）模型，如何提升其在未知（Unknown）任务上的表现？
解决方案：指令微调与多样化数据
- 核心思路是，要让模型能处理未见过的任务，就必须让它在训练阶段接触到尽可能多样化（diverse）的任务和指令。
- “我就要尽可能去收集各式各样不同任务的这些额外的资料...我才能够让这个通才这种通用的能力可以上升。”
- 这需要主动收集或由人类创造大量新颖、多样的“考题”（指令和数据），并将其纳入微调数据中。
与GPT-3.5的关联：
- 该方法正是 GPT-3.5 成功的关键之一，即基于人类反馈的指令微调（Instruction Tuning from Human Feedback）。通过收集大量人类提出的问题和指令，模型学会了遵循指示并泛化到更广泛的未知场景。

返回音频媒体