音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "分块"

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 05 GPUs

2025-05-13 16:31

演讲者首先介绍了课程作业的安排，并点明本次讲座的核心内容是图形处理器（GPU）。GPU对语言模型的运行至关重要，讲座旨在揭开CUDA和GPU的神秘面纱，帮助理解其工作原理及性能波动的原因，例如为何在特定矩阵乘法规模下GPU会变慢。学习目标包括让听众熟悉GPU，并能够利用CUDA等工具加速算法，例如理解FlashAttention这类高效算法的构建基础。演讲者提及了硬件发展的重要性，指出深度学习的进步得益于更快的硬件、更优的利用率和并行化。接着，演讲回顾了计算能力扩展的历史，从早期依赖登纳德缩放定律（Dennard scaling）提升CPU单核性能，到该趋势饱和后，转向并行计算的必要性，这也是GPU发展的关键。演讲者对比了CPU和GPU的设计理念：CPU侧重于低延迟，拥有复杂的控制单元以快速完成单个任务；而GPU则侧重于高吞吐量，通过大量并行计算单元（如ALU）同时处理多个任务，即使单个任务延迟可能更高，但总体处理效率更高。最后，演讲者初步介绍了GPU的内部结构，核心概念是流式多处理器（SM），每个SM包含多个流处理器（SP），SM负责控制逻辑和任务分发，而SP则对不同数据执行相同的指令，实现大规模并行计算。

GPU 语言模型高性能计算 CUDA 内存瓶颈并行计算性能优化 FlashAttention 分块重计算矩阵乘法硬件加速

已摘要阅读时间：11 分钟（3809 个字） 2 summary versions