音频媒体文件
标签搜索结果 for "FlashAttention"
FlashAttention V1 Deep Dive By Google Engineer | Fast and Memory-Efficient LLM Training
2025-06-15 21:21
FlashAttention
LLM
LLM训练优化
注意力机制
内存效率
I/O瓶颈
Tiling (分块)
Online Softmax
重计算 (Recomputation)
融合算子 (Fused Kernels)
已摘要
阅读时间:11 分钟(3816 个字)
2 summary versions
Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87
2025-05-16 20:59
MLSys
硬件感知算法
序列建模
GPU内存
FlashAttention
注意力机制
Mamba模型
状态空间模型
长上下文
LLM推理
性能优化
已摘要
阅读时间:11 分钟(3649 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 05 GPUs
2025-05-13 16:31
GPU
语言模型
高性能计算
CUDA
内存瓶颈
并行计算
性能优化
FlashAttention
分块
重计算
矩阵乘法
硬件加速
已摘要
阅读时间:11 分钟(3809 个字)
2 summary versions