音频媒体列表 - StreamSparkAI

2025-06-14 | Stanford CS25: V5 I Multimodal World Models for Drug Discovery, Eshed Margalit of Noetik.ai

2025-06-15 21:47

多模态世界模型助力癌症药物发现

AI药物发现多模态世界模型 Transformer模型癌症生物学空间转录组学个性化医疗生物技术 Noetik.ai 免疫疗法虚拟细胞模拟多模态数据融合掩码自编码器

已摘要阅读时间：14 分钟（4611 个字） 2 summary versions

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference

2025-05-21 10:12

Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题，重点涵盖推理工作负载、性能指标（如首个token生成时间TTFT、延迟、吞吐量）、Transformer架构下的计算强度分析、KV缓存优化技术（如GQA、MLA、CLA）、替代架构（如SSM、线性注意力、扩散模型）、量化与剪枝方法，以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。

大语言模型推理效率 Transformer模型 KV缓存优化内存受限模型量化模型剪枝推测采样 PagedAttention 替代架构动态工作负载计算强度

已摘要阅读时间：9 分钟（2905 个字） 3 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 04 Mixture of experts

2025-05-13 16:59

该讲座介绍了混合专家（MoE）架构在语言模型中的应用。讲座指出，MoE已成为2025年构建高性能大语言模型（如Grok、DeepSeek、Llama 4）的关键技术，相较于密集模型，能在相似计算资源消耗（FLOPs）下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络（FFN）替换为多个“专家”（即多个FFN副本）和一个“路由器”。在每次前向传播时，路由器会选择性地激活一小部分专家进行计算，从而在不显著增加实际计算量的前提下，大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标（如困惑度）。讲座强调了MoE的几大优势：1) 以更少的计算激活更多参数，提升模型容量和知识记忆能力；2) 在相同训练FLOPs下性能优于密集模型；3) 提供“专家并行”这一新的模型并行化维度，便于将大模型扩展到多设备上。尽管MoE在系统实现上存在复杂性，例如专家权重的存储和数据路由，但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及，MoE技术早期由Google等闭源实验室研发，中国团队（如Qwen、DeepSeek）在开源MoE的探索和基准测试方面做出了重要贡献，近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型混合专家 MoE架构 Transformer模型稀疏激活专家并行模型训练模型优化计算效率 DeepSeek V3

已摘要阅读时间：15 分钟（4973 个字） 3 summary versions

音频媒体文件

2025-06-14 | Stanford CS25: V5 I Multimodal World Models for Drug Discovery, Eshed Margalit of Noetik.ai

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 04 Mixture of experts