音频媒体文件

清除
标签搜索结果 for "MoE架构"
Qwen3-30B-A3B Mixture of Expert: Think Deeper, Act Faster - Install Locally
2025-06-04 11:12

Qwen3-30B-A3B Mixture of Expert模型本地安装与实测表现

Qwen3-30B-A3B MoE架构 大语言模型 本地部署 性能评测 人工智能 vLLM 逻辑推理 多语言能力 代码生成 阿里巴巴
已摘要 阅读时间:7 分钟(2405 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 04 Mixture of experts
2025-05-13 16:59

该讲座介绍了混合专家(MoE)架构在语言模型中的应用。讲座指出,MoE已成为2025年构建高性能大语言模型(如Grok、DeepSeek、Llama 4)的关键技术,相较于密集模型,能在相似计算资源消耗(FLOPs)下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络(FFN)替换为多个“专家”(即多个FFN副本)和一个“路由器”。在每次前向传播时,路由器会选择性地激活一小部分专家进行计算,从而在不显著增加实际计算量的前提下,大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标(如困惑度)。 讲座强调了MoE的几大优势:1) 以更少的计算激活更多参数,提升模型容量和知识记忆能力;2) 在相同训练FLOPs下性能优于密集模型;3) 提供“专家并行”这一新的模型并行化维度,便于将大模型扩展到多设备上。 尽管MoE在系统实现上存在复杂性,例如专家权重的存储和数据路由,但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及,MoE技术早期由Google等闭源实验室研发,中国团队(如Qwen、DeepSeek)在开源MoE的探索和基准测试方面做出了重要贡献,近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型 混合专家 MoE架构 Transformer模型 稀疏激活 专家并行 模型训练 模型优化 计算效率 DeepSeek V3
已摘要 阅读时间:15 分钟(4973 个字) 3 summary versions