音频媒体列表 - StreamSparkAI

2025-06-15 | 字节开源 AIBrix 基于vLLM的高性价比LLM推理加速方案

2025-06-17 09:41

字节开源AIBrix：基于vLLM的高性价比大模型推理加速方案

AIBrix LLM推理 vLLM 成本优化性能优化 KV Cache优化 PD分离 LoRA Kubernetes 云原生开源推理加速

已摘要阅读时间：10 分钟（3361 个字） 1 summary version

Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

2025-05-27 21:30

大型语言模型推理能力解析：从思维链到解码策略

人工智能大型语言模型 (LLM) LLM推理思维链 (CoT) 解码策略迭代式微调 (IFT) 自洽性 (Self-Consistency) 模型自改进检索增强推理提示工程谷歌DeepMind 涌现能力

已摘要阅读时间：11 分钟（3800 个字） 2 summary versions

Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87

2025-05-16 20:59

本次讲座是斯坦福MLSys研讨会第87期，主讲人Tri Dao讨论了面向序列建模的硬件感知算法。讲座分为两部分：第一部分关注改进Transformer中的自注意力机制，指出其在处理长序列时存在时间和内存复杂度呈平方增长的问题。通过IO感知算法（如FlashAttention），可以显著提高注意力计算的速度和内存效率，从而支持更长的上下文并提升模型质量。同时介绍了长上下文大型语言模型推理的优化方法。第二部分探讨了二次以下时间复杂度的模型架构，如循环神经网络（RNN）、门控卷积和结构化状态空间模型（SSM）。讲座指出这些模型的关键弱点在于缺乏基于内容的推理能力，并提出了选择机制来解决此问题。尽管这会影响卷积效率，但设计了硬件感知的并行算法。将这些选择性SSM集成到简化架构Mamba中，该模型在语言建模任务上达到或超过了现代Transformer的性能，并具有更快的推理速度和更长的上下文处理能力。

MLSys 硬件感知算法序列建模 GPU内存 FlashAttention 注意力机制 Mamba模型状态空间模型长上下文 LLM推理性能优化

已摘要阅读时间：11 分钟（3649 个字） 2 summary versions

音频媒体文件

2025-06-15 | 字节开源 AIBrix 基于vLLM的高性价比LLM推理加速方案

Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87