音频媒体文件
Generative AI Interview Prep 2024: LLMs, Transformers [Crash Course for AI/ML Engineers]
2025-05-14 10:18
生成式AI
LLMs
Transformer架构
AI/ML面试
生成模型
判别模型
自注意力机制
多头注意力
位置编码
深度学习
已摘要
阅读时间:10 分钟(3291 个字)
2 summary versions
5月13日大摩闭门会加更版:邢自强&Laura谈中美协议及最新市场展望
2025-05-13 23:04
中美贸易谈判
关税
宏观经济
中国经济
资本市场
股票策略
估值修复
人工智能
高端制造
房地产市场
结构性改革
中概股
已摘要
阅读时间:14 分钟(4556 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 08 Parallelism 2
2025-05-13 17:47
Language Modeling
Distributed Training
Multi-GPU Training
Multi-Node Training
Parallel Computing
Data Parallelism
Tensor Parallelism
Pipeline Parallelism
Collective Operations
GPU Interconnect
Data Transfer Bottleneck
PyTorch Distributed
已摘要
阅读时间:10 分钟(3434 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 |07 Parallelism 1
2025-05-13 17:44
大型语言模型
分布式训练
并行计算
数据并行
模型并行
流水线并行
张量并行
FSDP
GPU
TPU
集体通信
网络通信
已摘要
阅读时间:11 分钟(3561 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 06 Kernels, Triton
2025-05-13 17:44
GPU编程
语言模型
高性能计算
Triton
CUDA
PyTorch
性能优化
性能分析
核函数融合
PTX
GPU架构
深度学习
已摘要
阅读时间:7 分钟(2174 个字)
1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59
语言模型
Transformer架构
大型语言模型
模型训练
训练稳定性
架构演进
层归一化
RMSNorm
旋转位置编码
SwiGLU
注意力机制
超参数
已摘要
阅读时间:9 分钟(3084 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 04 Mixture of experts
2025-05-13 16:59
大语言模型
混合专家
MoE架构
Transformer模型
稀疏激活
专家并行
模型训练
模型优化
计算效率
DeepSeek V3
已摘要
阅读时间:15 分钟(4973 个字)
3 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 05 GPUs
2025-05-13 16:31
GPU
语言模型
高性能计算
CUDA
内存瓶颈
并行计算
性能优化
FlashAttention
分块
重计算
矩阵乘法
硬件加速
已摘要
阅读时间:11 分钟(3809 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 02 Pytorch, Resource Accounting
2025-05-13 16:30
语言模型
PyTorch
资源核算
内存核算
计算核算
浮点精度
BF16
FLOPs
矩阵乘法
混合精度训练
优化器状态
模型规模
已摘要
阅读时间:11 分钟(3692 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29
语言模型
LLMs
从零构建
Transformer
Tokenization
BPE
并行计算
规模法则
模型训练
模型对齐
数据处理
GPU优化
已摘要
阅读时间:15 分钟(4925 个字)
2 summary versions