音频媒体文件

清除
标签搜索结果 for "模型量化"
应用深度学习 | ADL TA Recitation: LLM LoRA Training 大型语言模型太大怎么调整呢?
2025-06-07 14:18

LLM训练技巧与LoRA方法解析

大型语言模型 LoRA QLoRA 参数高效微调 模型微调 模型量化 GPU显存优化 人工智能 Instruction Tuning bfloat16
已摘要 阅读时间:5 分钟(1691 个字) 1 summary version
AI Bites | QLoRA paper explained (Efficient Finetuning of Quantized LLMs)
2025-06-01 22:22

QLoRA详解:高效微调量化大语言模型的三大创新技术

QLoRA LLM 模型微调 模型量化 显存优化 NF4 双重量化 分页优化器 人工智能 LoRA 单GPU训练
已摘要 阅读时间:6 分钟(1966 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference
2025-05-21 10:12

Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题,重点涵盖推理工作负载、性能指标(如首个token生成时间TTFT、延迟、吞吐量)、Transformer架构下的计算强度分析、KV缓存优化技术(如GQA、MLA、CLA)、替代架构(如SSM、线性注意力、扩散模型)、量化与剪枝方法,以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。

大语言模型 推理效率 Transformer模型 KV缓存优化 内存受限 模型量化 模型剪枝 推测采样 PagedAttention 替代架构 动态工作负载 计算强度
已摘要 阅读时间:9 分钟(2905 个字) 3 summary versions