音频媒体文件
标签搜索结果 for "注意力机制"
FlashAttention V1 Deep Dive By Google Engineer | Fast and Memory-Efficient LLM Training
2025-06-15 21:21
FlashAttention
LLM
LLM训练优化
注意力机制
内存效率
I/O瓶颈
Tiling (分块)
Online Softmax
重计算 (Recomputation)
融合算子 (Fused Kernels)
已摘要
阅读时间:11 分钟(3816 个字)
2 summary versions
2025-03-04 | Transformer Deep Dive with Google Engineer | Foundation of LLMs and Modern AI
2025-06-15 20:50
人工智能
深度学习
自然语言处理
Transformer架构
LLM
注意力机制
位置编码
多头注意力
KV缓存
归一化技术
模型推理优化
已摘要
阅读时间:17 分钟(5776 个字)
3 summary versions
Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87
2025-05-16 20:59
MLSys
硬件感知算法
序列建模
GPU内存
FlashAttention
注意力机制
Mamba模型
状态空间模型
长上下文
LLM推理
性能优化
已摘要
阅读时间:11 分钟(3649 个字)
2 summary versions
Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy
2025-05-16 20:54
Transformers
深度学习
自然语言处理
注意力机制
模型架构
人工智能
计算机视觉
GPT模型
上下文学习
AI发展史
计算效率
未来AI
已摘要
阅读时间:14 分钟(4802 个字)
3 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers
2025-05-15 21:31
自然语言处理
深度学习
Transformer
自注意力
RNN
注意力机制
位置编码
多头注意力
编码器-解码器
机器翻译
预训练模型
已摘要
阅读时间:15 分钟(4947 个字)
2 summary versions
2024-04-12 | 3Blue1Brown | Transformers (how LLMs work) explained visually
2025-05-14 10:31
大型语言模型
Transformer架构
生成式AI
注意力机制
词嵌入
文本生成
深度学习
GPT模型
词元化
概率分布
已摘要
阅读时间:12 分钟(3911 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59
语言模型
Transformer架构
大型语言模型
模型训练
训练稳定性
架构演进
层归一化
RMSNorm
旋转位置编码
SwiGLU
注意力机制
超参数
已摘要
阅读时间:9 分钟(3084 个字)
2 summary versions