音频媒体文件

清除
标签搜索结果 for "LoRA"
2025-06-15 | 字节开源 AIBrix 基于vLLM的高性价比LLM推理加速方案
2025-06-17 09:41

字节开源AIBrix:基于vLLM的高性价比大模型推理加速方案

AIBrix LLM推理 vLLM 成本优化 性能优化 KV Cache优化 PD分离 LoRA Kubernetes 云原生 开源 推理加速
已摘要 阅读时间:10 分钟(3361 个字) 1 summary version
应用深度学习 | ADL TA Recitation: LLM LoRA Training 大型语言模型太大怎么调整呢?
2025-06-07 14:18

LLM训练技巧与LoRA方法解析

大型语言模型 LoRA QLoRA 参数高效微调 模型微调 模型量化 GPU显存优化 人工智能 Instruction Tuning bfloat16
已摘要 阅读时间:5 分钟(1691 个字) 1 summary version
应用深度学习 | 陈縕侬 | ADL 8.2: Parameter-Efficient Fine-Tuning (Adapter, LoRA) 如何低成本微调模型
2025-06-07 14:14

深度学习模型微调新方法:Adapter与LoRA的高效实践

参数高效微调 大语言模型 LoRA Adapter Tuning 深度学习 模型微调 低成本微调 低秩适配 指令微调
已摘要 阅读时间:6 分钟(1895 个字) 2 summary versions
AI Bites | LoRA (Low-rank Adaption of AI Large Language Models) for fine-tuning LLM models
2025-06-01 22:24

LoRA:高效微调大语言模型的低秩适配方法

人工智能 LLM LoRA PEFT 模型微调 参数高效 低秩 低秩分解 Transformer注意力 推理无延迟 部署优化 权重合并
已摘要 阅读时间:6 分钟(1824 个字) 1 summary version
AI Bites | QLoRA paper explained (Efficient Finetuning of Quantized LLMs)
2025-06-01 22:22

QLoRA详解:高效微调量化大语言模型的三大创新技术

QLoRA LLM 模型微调 模型量化 显存优化 NF4 双重量化 分页优化器 人工智能 LoRA 单GPU训练
已摘要 阅读时间:6 分钟(1966 个字) 1 summary version
LoRA (Low-Rank Adaptation) Intro By Google Engineer | LLM Parameter-Efficient Fine-Tuning
2025-05-31 20:13

LoRA技术详解:高效微调大模型的创新方法

LoRA 大语言模型 参数高效微调 模型微调 QLoRA 计算资源优化 人工智能 量化 (AI) 任务隔离 Adapter Tuning DoRA
已摘要 阅读时间:9 分钟(3136 个字) 1 summary version
Trelis Research | Fine tune Gemma 3, Qwen3, Llama 4, Phi 4 and Mistral Small with Unsloth and Transformers
2025-05-31 19:44

微调主流开源大模型:对比Unsloth与Transformers性能及技巧解析

大语言模型微调 Unsloth Transformers vLLM 开源大模型 LoRA 模型评估 数据准备 AI 性能对比
已摘要 阅读时间:9 分钟(3054 个字) 1 summary version
Trelis Research | Fine tuning Optimizations - DoRA, NEFT, LoRA+, Unsloth
2025-05-31 19:40

微调优化技术解析:DoRA、NEFT、LoRA+与Unsloth

人工智能 大语言模型 微调优化 LoRA DoRA NEFT LoRA+ Unsloth 参数高效微调 训练速度 模型性能
已摘要 阅读时间:8 分钟(2480 个字) 1 summary version
Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 12 - Efficient Training, Shikhar Murty
2025-05-16 20:37

该讲座主要讨论了大规模神经网络的高效训练方法。首先,讲师发布了课程项目提案的评分即将公布以及项目里程碑要求的通知。 核心内容从解释计算机中数字(特别是浮点数)的表示方式开始。FP32(32位浮点数)占用4字节内存,具有较大的表示范围和较高的精度。然而,训练大型模型时,FP32可能导致显存不足(OOM)。 为节省显存,可以使用FP16(16位浮点数),它将内存需求减半,但代价是牺牲了表示范围和精度。这会导致非常小的数值变为零,非常大的数值变为NaN,同时存在舍入误差,尤其影响梯度计算,许多小梯度会因范围限制而直接归零,不利于模型训练。 为解决此问题,引入了混合精度训练(Mixed Precision Training)。一种方案是同时使用FP32和FP16:模型权重保留一份FP32的主副本(master weights),前向和反向传播时将权重转换为FP16进行计算,得到FP16格式的梯度,然后将梯度转换回FP32更新主权重。但这种方法仍存在问题,因为FP16梯度在转换回FP32前可能已经因范围过小而丢失信息(变为零)。 进一步的解决方案是损失缩放(Loss Scaling):在前向传播得到损失后,将损失乘以一个较大的缩放因子,这会相应地放大梯度值,使得原本在FP16下会变成零的梯度能够被保留。计算完FP16梯度后,将其转换回FP32,再除以缩放因子还原,然后更新FP32主权重。PyTorch中可通过`GradScaler`和`autocast`实现。但损失缩放的缺点是需要小心调整缩放因子,以避免NaN并适应网络动态。 最后,讲座介绍了另一种16位浮点格式BFloat16(Brain Float 16)。BFloat16通过牺牲部分精度(尾数位数减少)来保持与FP32相同的指数位数,从而拥有与FP32相同的动态范围,但精度低于FP16。实践证明,这种精度损失对神经网络训练通常是可以接受的,并且使用BFloat16通常可以避免复杂的梯度缩放问题。

高效训练 深度学习训练 混合精度训练 BFloat16 分布式训练 FSDP 参数高效微调 LoRA GPU显存优化 大规模模型训练
已摘要 阅读时间:9 分钟(3078 个字) 3 summary versions