Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers
2025-05-15 21:31
该讲座主要介绍了自然语言处理领域从循环神经网络(RNN)向基于自注意力机制和Transformer模型的转变。
首先,讲座回顾了以往使用双向长短期记忆网络(BiLSTM)进行编码、单向LSTM结合注意力机制进行解码的NLP模型,并指出了其在处理长距离依赖和并行计算方面的局限性。RNN存在“线性交互距离”问题,即模型难以捕捉序列中远距离词语间的依赖关系,因为信息需要逐词传递,导致梯度传播困难。此外,RNN的计算具有时序依赖性,无法充分利用GPU进行并行处理,计算效率随序列长度增加而降低。
接着,讲座提出,尽管注意力机制此前已与RNN结合使用以改善信息瓶颈等问题,但新的范式将更彻底地采用注意力,特别是自注意力机制,以完全取代循环结构。自注意力机制允许模型在处理单个句子时,让每个词直接关注到句子中的所有其他词,从而更好地捕捉长距离依赖,并实现高度并行化的计算。讲座预告将深入探讨自注意力的原理及其在Transformer模型中的应用。
此外,讲座还包含了课程安排的通知:新的详细讲义已发布;第四次作业将于一周后截止,由于Azure GPU资源问题,建议使用Colab进行模型训练;最终项目提案的反馈即将发布。
自然语言处理
深度学习
Transformer
自注意力
RNN
注意力机制
位置编码
多头注意力
编码器-解码器
机器翻译
预训练模型
已摘要
阅读时间:15 分钟(4947 个字)
2 summary versions