音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "优化器状态"

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 02 Pytorch, Resource Accounting

2025-05-13 16:30

该讲座介绍了使用PyTorch从头构建语言模型的过程，并重点关注了模型训练中的资源效率问题，特别是内存和计算资源的使用。讲座通过示例计算（如训练大型模型的耗时、特定硬件可训练的最大模型参数量）强调了进行资源估算（“餐巾纸数学”）的重要性，以便有效控制成本。讲座内容不涉及Transformer架构的具体细节，而是聚焦于PyTorch的基本构件和资源核算方法，旨在培养学员的效率意识和实践能力。在内存核算方面，讲座详细讨论了张量（Tensor）作为存储参数、梯度、优化器状态等数据的基本单元，及其不同浮点数表示对内存占用的影响。具体对比了`float32`（单精度，默认，4字节）、`float16`（半精度，2字节，动态范围受限，可能导致训练不稳定）、`bfloat16`（脑浮点数，2字节，具有类似`float32`的动态范围但精度较低，适合深度学习计算）以及`fp8`（8位浮点数，更小，适用于H100等新硬件以追求极致优化）等数据类型。讲座建议在计算中使用`bfloat16`以平衡效率和稳定性，而参数和优化器状态的存储仍推荐使用`float32`以保证训练稳定性。

语言模型 PyTorch 资源核算内存核算计算核算浮点精度 BF16 FLOPs 矩阵乘法混合精度训练优化器状态模型规模

已摘要阅读时间：11 分钟（3692 个字） 2 summary versions