音频媒体文件
标签搜索结果 for "推理效率"
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference
2025-05-21 10:12
大语言模型
推理效率
Transformer模型
KV缓存优化
内存受限
模型量化
模型剪枝
推测采样
PagedAttention
替代架构
动态工作负载
计算强度
已摘要
阅读时间:9 分钟(2905 个字)
3 summary versions
2024-05-01 | Stanford CS25 V4 I Demystifying Mixtral of Experts
2025-05-20 13:31
人工智能
大语言模型
稀疏混合专家
Mixtral 8x7B
模型架构
推理效率
参数效率
模型可解释性
知识密集型任务
路由机制
开源模型
已摘要
阅读时间:12 分钟(3862 个字)
2 summary versions