音频媒体列表 - StreamSparkAI

2025-05-23 | Stanford | Controlling Language Models

2025-06-15 21:52

语言模型控制新方法与高效定制技术

语言模型控制人工智能自然语言处理 Prefix-Tuning 参数高效微调 Diffusion-LM 红队测试模型一致性文本生成模型斯坦福大学 Frank-Wolfe算法

已摘要阅读时间：14 分钟（4572 个字） 2 summary versions

应用深度学习 | ADL TA Recitation: LLM LoRA Training 大型语言模型太大怎么调整呢?

2025-06-07 14:18

LLM训练技巧与LoRA方法解析

大型语言模型 LoRA QLoRA 参数高效微调模型微调模型量化 GPU显存优化人工智能 Instruction Tuning bfloat16

已摘要阅读时间：5 分钟（1691 个字） 1 summary version

应用深度学习 | 陈縕侬 | ADL 8.2: Parameter-Efficient Fine-Tuning (Adapter, LoRA) 如何低成本微调模型

2025-06-07 14:14

深度学习模型微调新方法：Adapter与LoRA的高效实践

参数高效微调大语言模型 LoRA Adapter Tuning 深度学习模型微调低成本微调低秩适配指令微调

已摘要阅读时间：6 分钟（1895 个字） 2 summary versions

BiliBili | IBM RethinkFun | 三分钟学会大模型PEFT的LORA算法 lora_rank lora_alpha

2025-06-01 22:18

LORA算法原理与参数高效微调技巧

LoRA算法参数高效微调大模型人工智能深度学习低秩适应模型微调权重矩阵 lora_rank lora_alpha 计算效率

已摘要阅读时间：4 分钟（1298 个字） 1 summary version

LoRA (Low-Rank Adaptation) Intro By Google Engineer | LLM Parameter-Efficient Fine-Tuning

2025-05-31 20:13

LoRA技术详解：高效微调大模型的创新方法

LoRA 大语言模型参数高效微调模型微调 QLoRA 计算资源优化人工智能量化 (AI) 任务隔离 Adapter Tuning DoRA

已摘要阅读时间：9 分钟（3136 个字） 1 summary version

Trelis Research | Fine tuning Optimizations - DoRA, NEFT, LoRA+, Unsloth

2025-05-31 19:40

微调优化技术解析：DoRA、NEFT、LoRA+与Unsloth

人工智能大语言模型微调优化 LoRA DoRA NEFT LoRA+ Unsloth 参数高效微调训练速度模型性能

已摘要阅读时间：8 分钟（2480 个字） 1 summary version

MIT | Liquid AI | Introduction to LLM Post-Training

2025-05-18 16:19

该转录内容阐述了大型语言模型在预训练后的后训练过程。讲者指出，预训练阶段仅使模型具备下一个令牌预测能力，而后训练则通过监督微调和偏好对齐两步，将基础模型转变为能理解指令、回答问题的实用助手。文中区分了通用微调、领域特定微调和任务特定微调三种方式，并说明了不同方式在数据规模和质量要求上的区别。讲解还涉及了何时采用微调技术，如改变回答语气、注入领域知识、模型蒸馏以及针对特定任务优化，同时强调了持续评估与迭代的重要性。最后，内容还总结了构建高质量数据集的三大要素：准确性、多样性和复杂性。

LLM 后训练监督微调偏好对齐大语言模型模型微调数据质量模型合并模型评估测试时计算扩展人工智能参数高效微调

已摘要阅读时间：16 分钟（5408 个字） 2 summary versions

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 12 - Efficient Training, Shikhar Murty

2025-05-16 20:37

该讲座主要讨论了大规模神经网络的高效训练方法。首先，讲师发布了课程项目提案的评分即将公布以及项目里程碑要求的通知。核心内容从解释计算机中数字（特别是浮点数）的表示方式开始。FP32（32位浮点数）占用4字节内存，具有较大的表示范围和较高的精度。然而，训练大型模型时，FP32可能导致显存不足（OOM）。为节省显存，可以使用FP16（16位浮点数），它将内存需求减半，但代价是牺牲了表示范围和精度。这会导致非常小的数值变为零，非常大的数值变为NaN，同时存在舍入误差，尤其影响梯度计算，许多小梯度会因范围限制而直接归零，不利于模型训练。为解决此问题，引入了混合精度训练（Mixed Precision Training）。一种方案是同时使用FP32和FP16：模型权重保留一份FP32的主副本（master weights），前向和反向传播时将权重转换为FP16进行计算，得到FP16格式的梯度，然后将梯度转换回FP32更新主权重。但这种方法仍存在问题，因为FP16梯度在转换回FP32前可能已经因范围过小而丢失信息（变为零）。进一步的解决方案是损失缩放（Loss Scaling）：在前向传播得到损失后，将损失乘以一个较大的缩放因子，这会相应地放大梯度值，使得原本在FP16下会变成零的梯度能够被保留。计算完FP16梯度后，将其转换回FP32，再除以缩放因子还原，然后更新FP32主权重。PyTorch中可通过`GradScaler`和`autocast`实现。但损失缩放的缺点是需要小心调整缩放因子，以避免NaN并适应网络动态。最后，讲座介绍了另一种16位浮点格式BFloat16（Brain Float 16）。BFloat16通过牺牲部分精度（尾数位数减少）来保持与FP32相同的指数位数，从而拥有与FP32相同的动态范围，但精度低于FP16。实践证明，这种精度损失对神经网络训练通常是可以接受的，并且使用BFloat16通常可以避免复杂的梯度缩放问题。

高效训练深度学习训练混合精度训练 BFloat16 分布式训练 FSDP 参数高效微调 LoRA GPU显存优化大规模模型训练

已摘要阅读时间：9 分钟（3078 个字） 3 summary versions

音频媒体文件