音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "硬件加速"

2025-11-10 | GOSIM开源创新汇 | vLLM: 人人可用的简单、快速且低成本的大模型服务方案

2025-11-16 17:17

vLLM团队分享开源推理引擎最新进展：支持百余模型、多硬件平台，加入PyTorch基金会成为顶级项目

vLLM 大模型推理 PageAttention KV Cache管理 PyTorch基金会开源推理引擎 Continuous Batching 多模态模型硬件加速模型服务部署 Torch Compile CUDA Graph优化

已摘要阅读时间：8 分钟（2724 个字） 2 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 05 GPUs

2025-05-13 16:31

演讲者首先介绍了课程作业的安排，并点明本次讲座的核心内容是图形处理器（GPU）。GPU对语言模型的运行至关重要，讲座旨在揭开CUDA和GPU的神秘面纱，帮助理解其工作原理及性能波动的原因，例如为何在特定矩阵乘法规模下GPU会变慢。学习目标包括让听众熟悉GPU，并能够利用CUDA等工具加速算法，例如理解FlashAttention这类高效算法的构建基础。演讲者提及了硬件发展的重要性，指出深度学习的进步得益于更快的硬件、更优的利用率和并行化。接着，演讲回顾了计算能力扩展的历史，从早期依赖登纳德缩放定律（Dennard scaling）提升CPU单核性能，到该趋势饱和后，转向并行计算的必要性，这也是GPU发展的关键。演讲者对比了CPU和GPU的设计理念：CPU侧重于低延迟，拥有复杂的控制单元以快速完成单个任务；而GPU则侧重于高吞吐量，通过大量并行计算单元（如ALU）同时处理多个任务，即使单个任务延迟可能更高，但总体处理效率更高。最后，演讲者初步介绍了GPU的内部结构，核心概念是流式多处理器（SM），每个SM包含多个流处理器（SP），SM负责控制逻辑和任务分发，而SP则对不同数据执行相同的指令，实现大规模并行计算。

GPU 语言模型高性能计算 CUDA 内存瓶颈并行计算性能优化 FlashAttention 分块重计算矩阵乘法硬件加速

已摘要阅读时间：11 分钟（3809 个字） 2 summary versions