详细摘要 摘要
生成:2025-06-07 14:20摘要详情
- 音频文件
- 应用深度学习 | 陈縕侬 | ADL 8.2: Parameter-Efficient Fine-Tuning (Adapter, LoRA) 如何低成本微调模型
- 摘要类型
- 详细摘要
- LLM 提供商
- openai
- LLM 模型
- gemini-2.5-pro-preview-06-05
- 已创建
- 2025-06-07 14:20:04
摘要内容
概览/核心摘要 (Executive Summary)
本次演讲深入探讨了在大型语言模型时代,如何通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,以较低的计算成本调整模型以适应特定任务。演讲指出,传统研究领域过度关注模型精度(Accuracy)而忽略了效率(Efficiency),导致训练成本高昂,这种趋势有利于资源雄厚的业界,而不利于学术界。
为解决此问题,演讲重点介绍了两种主流的PEFT方法:Adapter Tuning和LoRA (Low-Rank Adaptation)。
1. Adapter Tuning的核心思想是冻结预训练模型的绝大部分参数,仅在模型层与层之间插入少量可训练的“适配器”模块。这些适配器是任务专属的,可以“即插即用”,从而在不改变原始模型的情况下实现对特定任务的适配,同时极大节省了存储空间。
2. LoRA则基于一个关键假设:模型在微调过程中的权重更新矩阵具有“低内在秩”(Low Intrinsic Rank)。因此,它通过学习两个低秩矩阵来模拟完整的权重更新,将需要训练的参数数量减少了几个数量级。实验数据显示,在GPT-3 (175B)模型上,LoRA仅用约4.7M的可训练参数,就能达到与全量微调(175B参数)相媲美的性能。
演讲最后总结,没有一种PEFT方法是万能的,不同方法各有优势,因此出现了结合多种方法的融合策略。此外,为了提升模型的泛化能力以应对未知任务,需要通过收集多样化的指令数据进行训练,这正是GPT-3.5等模型采用人类反馈指令微调(Instruction Tuning)的核心思路。
参数高效微调的动机与背景
- 问题核心:直接微调(Fine-Tuning)一个包含海量参数的大型语言模型,计算成本和资源消耗巨大,对于多数研究者和开发者而言并不可行。
- 学术界与工业界的失衡:
- 演讲者引用分析指出,AI领域的研究论文过去更侧重于提升模型性能(Accuracy),而较少关注训练效率(Efficiency)。
-
“大部分的这些paper focus比较多是focus在accuracy instead of efficiency,就是大家只着着重在我的performance到底怎样。”
- 这种以性能为导向的范式,使得拥有更多计算资源的大型科技公司在竞争中占据绝对优势,限制了学术界的发展。
- 发展趋势:为了应对高昂的训练成本,学术界和业界开始积极探索更经济、高效的微调方法,使得关注训练效率的论文数量显著增加。
方法一:Adapter Tuning (适配器微调)
- 核心思想:在不改动原始预训练模型(图中“橘色”部分)的前提下,向其内部结构中插入一些小型的、可训练的神经网络模块,即“适配器”(Adapter,图中“紫色”部分)。
- 工作原理:
- 冻结原模型:预训练模型(如Transformer)的权重保持不变。
- 插入适配器:在Transformer的每个块(Block)中的注意力层(Attention)和前馈网络(Feed-forward Network)之后,插入适配器模块。
- 学习残差:适配器的目标是学习一个对原始输出的增量调整(
ΔH)。假设原始输出为H,微调后的理想输出为H',则H' = H + ΔH。适配器通过训练来模拟生成ΔH,然后通过残差连接(Residual Connection)将其加回到原始H上,从而得到H'。
- 优点与应用:
- 模块化与可插拔:每个下游任务可以训练一个独立的适配器。使用时,只需将相应的适配器“插入”模型即可,非常灵活。
- 存储高效:只需为每个任务存储小体积的适配器参数,而无需保存整个模型的副本,极大地节省了存储成本。
- 鲁棒性强:由于原始模型被冻结,避免了在微调过程中对模型通用能力的破坏(即“灾难性遗忘”),模型更加稳健。
方法二:LoRA (Low-Rank Adaptation 低秩适配)
- 核心思想:LoRA基于一个关键假设:大型语言模型在针对特定任务进行微调时,其权重的变化量(
ΔW)是一个具有“低内在秩”(Low Intrinsic Rank)的矩阵。这意味着复杂的、高维度的权重调整,可以被一个更简单的、低维度的变化来近似表示。
> “他觉得如果我们现在在做一个adaptation...它调整的状况比较像是一个high level的方向...这个low rank对应的其实就像是在这些...里面的一个eigenvector。” - 工作原理:
- 权重更新分解:LoRA不直接学习巨大的权重更新矩阵
ΔW,而是将其分解为两个更小的低秩矩阵A和B的乘积(ΔW ≈ B * A)。 - 降维与升维:
- 矩阵
A将高维的输入特征投影到一个非常低的维度空间(例如,从d维降到r维,r << d),形成一个“瓶颈”(Bottleneck)。 - 矩阵
B再将这个低维表示投影回原始的高维空间。
- 矩阵
- 高效训练:在微调过程中,原始模型权重
W保持冻结,只有低秩矩阵A和B的参数被训练。这使得需要训练的参数量急剧减少。
- 权重更新分解:LoRA不直接学习巨大的权重更新矩阵
- 性能与数据:
- 实验案例:在 GPT-3 (175B) 模型上进行的实验。
- 参数对比:
- 全量微调 (Full Fine-tuning):需要训练 175B 个参数。
- LoRA:根据选择的秩(rank)的大小,仅需训练 4.7M 到 37.7M 的参数。
- 结论:实验图表显示,LoRA(图中粉色线)在性能上几乎可以与全量微调相媲美,但其所需训练的参数量(成本)却极低。它在性能和效率之间取得了出色的平衡,并且相比其他一些方法更不容易过拟合。
不同高效微调方法的比较与融合
- 争议与不确定性:没有万能方法
- 一篇论文对多种PEFT方法(包括全量微调、Adapter、Prefix-Tuning、LoRA等)在多个任务上进行了公平比较。
- 核心结论:> “没有一个最好,就是每一种都有各自擅长的地方。” 这表明不存在一种在所有场景下都最优的PEFT方法。
- 决策与建议:融合策略
- 鉴于单一方法的局限性,研究者提出了一种融合模型,将Adapter、Prefix-Tuning等多种方法集成在一起。
- 该模型通过一个门控机制(Gating Mechanism)来自动学习在特定情境下应该激活哪一种或哪几种微调方法。
- 实验证明,这种组合方法的性能优于任何单一方法,但代价是模型结构更复杂、整体参数量更大。
超越已知任务:提升模型的泛化能力
- 挑战:PEFT解决了在已知任务上的高效微调问题。但对于一个“通才”(Generalist)模型,如何提升其在未知(Unknown)任务上的表现?
- 解决方案:指令微调与多样化数据
- 核心思路是,要让模型能处理未见过的任务,就必须让它在训练阶段接触到尽可能多样化(diverse)的任务和指令。
-
“我就要尽可能去收集各式各样不同任务的这些额外的资料...我才能够让这个通才这种通用的能力可以上升。”
- 这需要主动收集或由人类创造大量新颖、多样的“考题”(指令和数据),并将其纳入微调数据中。
- 与GPT-3.5的关联:
- 该方法正是 GPT-3.5 成功的关键之一,即基于人类反馈的指令微调(Instruction Tuning from Human Feedback)。通过收集大量人类提出的问题和指令,模型学会了遵循指示并泛化到更广泛的未知场景。