音频媒体文件

清除
标签搜索结果 for "编码器-解码器模型"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 6 - Sequence to Sequence Models
2025-05-15 22:01

该讲座是斯坦福CS224N课程关于自然语言处理与深度学习的第六讲,主要延续了先前关于语言模型和循环神经网络(RNN)的讨论。 核心内容包括: 1. **回顾与展望**:讲座首先回顾了语言模型(预测下一个词的系统)和RNN(能处理任意长度序列输入、每步共享权重并可选输出的神经网络架构)的基本概念。接着预告将介绍一种更高级的RNN——长短期记忆网络(LSTM),并在后续内容中探讨神经机器翻译。 2. **语言模型评估**:详细阐述了评估语言模型的标准指标——困惑度(Perplexity)。解释了其计算方法(本质上是交叉熵的指数形式)、历史背景(由Fred Jelinek提出,旨在用一个更直观的数值来表示模型预测的不确定性,相当于在多少个选项中均匀选择),以及其意义(更低的困惑度代表更好的模型性能,能更准确地预测人类书写的文本)。讲座还提及,比较困惑度时需注意所使用的对数底(如底数为2或自然对数e)。 3. **模型性能演进**:通过困惑度数值展示了语言模型的发展历程。从传统的N-gram模型(如使用Kneser-Ney平滑,困惑度约67),到早期RNN与其它模型结合(困惑度约51),再到LSTM的应用使得困惑度显著降低(例如降至43或30,相当于交叉熵减少约1比特)。讲座指出,当前最先进的语言模型困惑度已能达到个位数。 4. **RNN的挑战与LSTM的动机**:重点阐述了标准RNN在训练过程中面临的“梯度消失”和“梯度爆炸”问题。这些问题源于在反向传播过程中,损失函数对参数的梯度会随着序列长度的增加而连乘多个雅可比矩阵(在简化情况下,主要是权重矩阵Wh)。如果这些矩阵的范数持续小于1,梯度会趋近于零(梯度消失),导致模型难以学习长距离依赖;如果持续大于1,梯度会指数级增长(梯度爆炸)。这一缺陷是引入LSTM等更复杂RNN结构的主要动机。

自然语言处理 深度学习 循环神经网络 LSTM 语言模型 困惑度 梯度消失 序列到序列模型 神经机器翻译 编码器-解码器模型
已摘要 阅读时间:9 分钟(3048 个字) 2 summary versions