音频媒体文件

清除
标签搜索结果 for "Parallel Computing"
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 08 Parallelism 2
2025-05-13 17:47

该讲座探讨了利用多GPU和多节点并行来加速模型训练,核心在于克服数据传输瓶颈以最大化GPU利用率。讲座首先回顾了单GPU内的并行技术,并重点转向跨GPU和节点的并行。内容介绍了数据传输的层级结构,从GPU内部的L1缓存、高带宽内存(HBM),到同一节点内GPU间的NVLink,再到跨节点的NVSwitch,指出数据传输速度远慢于计算速度,是主要的性能瓶颈。 讲座的第一部分详细阐述了集体通信操作(Collective Operations),这些是分布式编程的基础构建模块,例如广播(broadcast)、分散(scatter)、收集(gather)、规约(reduce)、全体收集(all-gather)和规约分散(reduce-scatter)。同时解释了相关术语,如“world size”(设备总数)和“rank”(设备编号)。 接着,讲座对比了GPU通信硬件的演进:传统方式通过PCIe总线(节点内)和以太网(节点间)通信,常受CPU开销和带宽限制;而现代NVIDIA系统采用NVLink实现节点内GPU直连,NVSwitch实现跨节点GPU直连,从而绕过CPU和以太网,大幅提升通信带宽和效率,并以H100节点的连接为例进行了说明。讲座后续将具体讨论这些操作在NCCL和PyTorch中的实现及分布式训练策略(如数据并行、张量并行和流水线并行)。

Language Modeling Distributed Training Multi-GPU Training Multi-Node Training Parallel Computing Data Parallelism Tensor Parallelism Pipeline Parallelism Collective Operations GPU Interconnect Data Transfer Bottleneck PyTorch Distributed
已摘要 阅读时间:10 分钟(3434 个字) 2 summary versions