FlashAttention V1 Deep Dive By Google Engineer | Fast and Memory-Efficient LLM Training
2025-06-15 21:21
FlashAttention V1 通过分块计算和在线 Softmax 技术优化注意力机制,显著提升大模型训练速度与内存效率。
FlashAttention
LLM
LLM训练优化
注意力机制
内存效率
I/O瓶颈
Tiling (分块)
Online Softmax
重计算 (Recomputation)
融合算子 (Fused Kernels)
已摘要
阅读时间:11 分钟(3816 个字)
2 summary versions