2025 MIT | MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention
2025-05-18 16:28
讲师Ava在讲座中详细介绍了深度序列建模的基本概念和实际应用。她首先通过二维平面上预测小球运动轨迹的例子说明,在处理带有时间依赖的数据时,历史信息对预测结果的重要性。接着,她回顾了前一讲中关于感知机和前馈神经网络的内容,并阐释了如何将这些基础模型扩展到序列数据场景,即通过递归神经网络(RNN)传递和更新隐藏状态,从而捕捉数据的时序关系。讲座还指出了序列数据在语音、文本、医疗信号、金融数据等领域内的广泛存在,为后续探讨更先进的基于注意力机制的序列模型奠定了理论基础。
深度序列建模
循环神经网络 (RNN)
自注意力机制
Transformer 模型
大型语言模型 (LLMs)
自然语言处理 (NLP)
梯度问题
长期依赖
深度学习
MIT 6.S191
已摘要
阅读时间:9 分钟(3079 个字)
2 summary versions