音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "KV缓存优化"

DeepSeek-V3 Explained by Google Engineer | Mixture of Experts | Multi-head Latent Attention | CUDA

2025-05-31 20:15

DeepSeek V3技术解析：MoE架构与性能优化

DeepSeek-V3 大语言模型 (LLM) 混合专家模型 (MoE) 多头潜在注意力 (MLA) KV缓存优化无辅助损失负载均衡多词元预测 (MTP) FP8混合精度训练 CUDA核心优化推理性能优化模型效率

已摘要阅读时间：11 分钟（3504 个字） 1 summary version

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference

2025-05-21 10:12

Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题，重点涵盖推理工作负载、性能指标（如首个token生成时间TTFT、延迟、吞吐量）、Transformer架构下的计算强度分析、KV缓存优化技术（如GQA、MLA、CLA）、替代架构（如SSM、线性注意力、扩散模型）、量化与剪枝方法，以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。

大语言模型推理效率 Transformer模型 KV缓存优化内存受限模型量化模型剪枝推测采样 PagedAttention 替代架构动态工作负载计算强度

已摘要阅读时间：9 分钟（2905 个字） 3 summary versions