音频媒体文件
标签搜索结果 for "大型语言模型"
Stanford CS336 Language Modeling from Scratch | Spring 2025 |07 Parallelism 1
2025-05-13 17:44
大型语言模型
分布式训练
并行计算
数据并行
模型并行
流水线并行
张量并行
FSDP
GPU
TPU
集体通信
网络通信
已摘要
阅读时间:11 分钟(3561 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59
语言模型
Transformer架构
大型语言模型
模型训练
训练稳定性
架构演进
层归一化
RMSNorm
旋转位置编码
SwiGLU
注意力机制
超参数
已摘要
阅读时间:9 分钟(3084 个字)
2 summary versions