音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "Parallel Computing"

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 08 Parallelism 2

2025-05-13 17:47

该讲座探讨了利用多GPU和多节点并行来加速模型训练，核心在于克服数据传输瓶颈以最大化GPU利用率。讲座首先回顾了单GPU内的并行技术，并重点转向跨GPU和节点的并行。内容介绍了数据传输的层级结构，从GPU内部的L1缓存、高带宽内存（HBM），到同一节点内GPU间的NVLink，再到跨节点的NVSwitch，指出数据传输速度远慢于计算速度，是主要的性能瓶颈。讲座的第一部分详细阐述了集体通信操作（Collective Operations），这些是分布式编程的基础构建模块，例如广播（broadcast）、分散（scatter）、收集（gather）、规约（reduce）、全体收集（all-gather）和规约分散（reduce-scatter）。同时解释了相关术语，如“world size”（设备总数）和“rank”（设备编号）。接着，讲座对比了GPU通信硬件的演进：传统方式通过PCIe总线（节点内）和以太网（节点间）通信，常受CPU开销和带宽限制；而现代NVIDIA系统采用NVLink实现节点内GPU直连，NVSwitch实现跨节点GPU直连，从而绕过CPU和以太网，大幅提升通信带宽和效率，并以H100节点的连接为例进行了说明。讲座后续将具体讨论这些操作在NCCL和PyTorch中的实现及分布式训练策略（如数据并行、张量并行和流水线并行）。

Language Modeling Distributed Training Multi-GPU Training Multi-Node Training Parallel Computing Data Parallelism Tensor Parallelism Pipeline Parallelism Collective Operations GPU Interconnect Data Transfer Bottleneck PyTorch Distributed

已摘要阅读时间：10 分钟（3434 个字） 2 summary versions