音频媒体文件

清除
标签搜索结果 for "LLM推理"
2025-06-15 | 字节开源 AIBrix 基于vLLM的高性价比LLM推理加速方案
2025-06-17 09:41

字节开源AIBrix:基于vLLM的高性价比大模型推理加速方案

AIBrix LLM推理 vLLM 成本优化 性能优化 KV Cache优化 PD分离 LoRA Kubernetes 云原生 开源 推理加速
已摘要 阅读时间:10 分钟(3361 个字) 1 summary version
Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind
2025-05-27 21:30

大型语言模型推理能力解析:从思维链到解码策略

人工智能 大型语言模型 (LLM) LLM推理 思维链 (CoT) 解码策略 迭代式微调 (IFT) 自洽性 (Self-Consistency) 模型自改进 检索增强推理 提示工程 谷歌DeepMind 涌现能力
已摘要 阅读时间:11 分钟(3800 个字) 2 summary versions
Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87
2025-05-16 20:59

本次讲座是斯坦福MLSys研讨会第87期,主讲人Tri Dao讨论了面向序列建模的硬件感知算法。讲座分为两部分:第一部分关注改进Transformer中的自注意力机制,指出其在处理长序列时存在时间和内存复杂度呈平方增长的问题。通过IO感知算法(如FlashAttention),可以显著提高注意力计算的速度和内存效率,从而支持更长的上下文并提升模型质量。同时介绍了长上下文大型语言模型推理的优化方法。第二部分探讨了二次以下时间复杂度的模型架构,如循环神经网络(RNN)、门控卷积和结构化状态空间模型(SSM)。讲座指出这些模型的关键弱点在于缺乏基于内容的推理能力,并提出了选择机制来解决此问题。尽管这会影响卷积效率,但设计了硬件感知的并行算法。将这些选择性SSM集成到简化架构Mamba中,该模型在语言建模任务上达到或超过了现代Transformer的性能,并具有更快的推理速度和更长的上下文处理能力。

MLSys 硬件感知算法 序列建模 GPU内存 FlashAttention 注意力机制 Mamba模型 状态空间模型 长上下文 LLM推理 性能优化
已摘要 阅读时间:11 分钟(3649 个字) 2 summary versions