音频媒体文件

清除
标签搜索结果 for "大语言模型"
Trelis Research | Fine tuning Optimizations - DoRA, NEFT, LoRA+, Unsloth
2025-05-31 19:40

微调优化技术解析:DoRA、NEFT、LoRA+与Unsloth

人工智能 大语言模型 微调优化 LoRA DoRA NEFT LoRA+ Unsloth 参数高效微调 训练速度 模型性能
已摘要 阅读时间:8 分钟(2480 个字) 1 summary version
CS-194 Eric Wallace Memorization in language models
2025-05-23 13:08

语言模型中的记忆效应:风险、检测与缓解策略

人工智能 大语言模型 模型记忆 隐私泄露 版权侵权 模型安全 成员推断 数据去重 差分隐私 越狱攻击 缓解策略
已摘要 阅读时间:8 分钟(2542 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference
2025-05-21 10:12

Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题,重点涵盖推理工作负载、性能指标(如首个token生成时间TTFT、延迟、吞吐量)、Transformer架构下的计算强度分析、KV缓存优化技术(如GQA、MLA、CLA)、替代架构(如SSM、线性注意力、扩散模型)、量化与剪枝方法,以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。

大语言模型 推理效率 Transformer模型 KV缓存优化 内存受限 模型量化 模型剪枝 推测采样 PagedAttention 替代架构 动态工作负载 计算强度
已摘要 阅读时间:9 分钟(2905 个字) 3 summary versions
2024-05-01 | Stanford CS25 V4 I Demystifying Mixtral of Experts
2025-05-20 13:31

Mixtral 8x7B:稀疏专家混合模型解析

人工智能 大语言模型 稀疏混合专家 Mixtral 8x7B 模型架构 推理效率 参数效率 模型可解释性 知识密集型任务 路由机制 开源模型
已摘要 阅读时间:12 分钟(3862 个字) 2 summary versions
MIT | Liquid AI | Introduction to LLM Post-Training
2025-05-18 16:19

该转录内容阐述了大型语言模型在预训练后的后训练过程。讲者指出,预训练阶段仅使模型具备下一个令牌预测能力,而后训练则通过监督微调和偏好对齐两步,将基础模型转变为能理解指令、回答问题的实用助手。文中区分了通用微调、领域特定微调和任务特定微调三种方式,并说明了不同方式在数据规模和质量要求上的区别。讲解还涉及了何时采用微调技术,如改变回答语气、注入领域知识、模型蒸馏以及针对特定任务优化,同时强调了持续评估与迭代的重要性。最后,内容还总结了构建高质量数据集的三大要素:准确性、多样性和复杂性。

LLM 后训练 监督微调 偏好对齐 大语言模型 模型微调 数据质量 模型合并 模型评估 测试时计算扩展 人工智能 参数高效微调
已摘要 阅读时间:16 分钟(5408 个字) 2 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining
2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模(subword modeling)技术,该技术通过将词汇分解为子词单元(如字符、字符组合),以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言(如斯瓦希里语有大量动词变位)时的局限性,从而提升模型对词汇的覆盖和泛化能力,避免将未知词统一映射为“unk”符号导致信息丢失。随后,课程计划探讨预训练的动机(从词嵌入出发)、三种主要的预训练方法(解码器、编码器、编码器-解码器架构)、预训练赋予模型的能力,以及大型模型和上下文学习(in-context learning)等相关主题。讲座开始时还提及了课程作业(如第五项作业将涵盖预训练、Transformer等内容)和项目提案的截止日期安排。

NLP 预训练 大语言模型 Transformer 子词建模 掩码语言建模 上下文学习 微调 BERT GPT 思维链提示
已摘要 阅读时间:12 分钟(4127 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 04 Mixture of experts
2025-05-13 16:59

该讲座介绍了混合专家(MoE)架构在语言模型中的应用。讲座指出,MoE已成为2025年构建高性能大语言模型(如Grok、DeepSeek、Llama 4)的关键技术,相较于密集模型,能在相似计算资源消耗(FLOPs)下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络(FFN)替换为多个“专家”(即多个FFN副本)和一个“路由器”。在每次前向传播时,路由器会选择性地激活一小部分专家进行计算,从而在不显著增加实际计算量的前提下,大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标(如困惑度)。 讲座强调了MoE的几大优势:1) 以更少的计算激活更多参数,提升模型容量和知识记忆能力;2) 在相同训练FLOPs下性能优于密集模型;3) 提供“专家并行”这一新的模型并行化维度,便于将大模型扩展到多设备上。 尽管MoE在系统实现上存在复杂性,例如专家权重的存储和数据路由,但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及,MoE技术早期由Google等闭源实验室研发,中国团队(如Qwen、DeepSeek)在开源MoE的探索和基准测试方面做出了重要贡献,近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型 混合专家 MoE架构 Transformer模型 稀疏激活 专家并行 模型训练 模型优化 计算效率 DeepSeek V3
已摘要 阅读时间:15 分钟(4973 个字) 3 summary versions