音频媒体文件

清除
标签搜索结果 for "Deep Learning"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks
2025-05-15 21:12

该斯坦福CS224N课程的第五讲主要介绍了神经网络的一些补充概念,并引入了自然语言处理中的语言模型任务。随后,课程详细讲解了循环神经网络(RNN)作为构建语言模型的一种方法,并提及了其在后续作业中的应用,同时也指出RNN并非构建语言模型的唯一途径,预告了之后将介绍Transformer模型。讲座还讨论了RNN存在的问题。 在深入技术内容前,讲者简要分析了课程学生的构成,并强调了现代神经网络(尤其是语言模型)参数规模的巨大,已达数千亿级别。 接着,讲座回顾了神经网络的发展历史:早期(80-90年代)神经网络虽有反向传播算法,但通常只有单一隐藏层,因为训练更深层的网络在当时非常困难,导致该领域停滞了约15年。深度学习的复兴始于2000年代末至2010年代,通过一些关键的技术改进(如更好的正则化方法),才使得深度神经网络的训练成为可能,并展现出远超浅层网络的性能。 其中,正则化是一个重要方面。讲座对比了正则化的经典观点与现代大型神经网络中的新认知:经典观点认为正则化旨在防止模型过拟合(即模型在训练数据上表现好,但在新数据上泛化能力差,表现为验证集误差在训练到一定程度后开始上升)。然而,现代观点认为,对于参数量巨大的神经网络,在良好正则化的前提下,即使模型在训练集上达到近乎零误差(即几乎“记住”了整个训练集),其在验证集上的误差也可能持续下降,表明模型依然具备良好的泛化能力。这种现象挑战了传统上对“过拟合即灾难”的看法。

NLP Deep Learning Neural Networks Recurrent Neural Networks Language Models Regularization Gradient Problems Text Generation N-gram Models Stanford CS224N
已摘要 阅读时间:12 分钟(4112 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network
2025-05-15 21:07

斯坦福CS224N课程第二周周二的讲座主要回顾了作业一的提交情况,并介绍了作业二的内容。作业二包含三个主要部分:一是通过数学计算理解神经网络的运作原理;二是学习依存句法分析,涉及语言结构和语言学知识;三是开始使用PyTorch深度学习框架。为此,课程将在周五提供PyTorch的入门教程。 讲座接着深入探讨了神经网络的数学基础,强调了神经网络通过层级结构学习中间表征的重要性。与传统机器学习模型不同,神经网络能够自我组织中间层的表征,以更好地服务于最终任务。讲座解释了神经网络中层的计算过程,包括输入向量与权重矩阵的乘法、加上偏置项,以及通过非线性激活函数得到下一层的输出。 最后,讲座重点讨论了非线性激活函数的作用和发展。从早期因无法提供梯度而难以学习的阈值函数,到后来广泛应用的具有平滑梯度的Sigmoid和Tanh函数。Sigmoid函数输出非负,而Tanh函数可以视为Sigmoid的缩放和平移。尽管这些函数有效,但指数运算较为耗时。因此,后续发展出计算更简便的Hard Tanh,并最终引出了目前常用的ReLU(Rectified Linear Unit)激活函数。ReLU在负数区输出为零(梯度为零),在正数区输出等于输入(梯度为1)。尽管ReLU在负数区存在“神经元死亡”问题,但其简洁的梯度和在实践中的有效性使其成为主流选择,因为它能促进梯度的反向传播并实现某种程度的神经元特化。

Deep Learning Neural Networks Backpropagation Gradient Descent Activation Functions Matrix Calculus Computation Graphs PyTorch Automatic Differentiation Gradient Checking
已摘要 阅读时间:10 分钟(3265 个字) 1 summary version
Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 2 - Word Vectors and Language Models
2025-05-15 13:21

该讲座首先通报了课程安排,包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度,并提醒学生合理使用预约资源。 核心内容回顾了优化基础,特别是梯度下降算法,即通过计算损失函数的梯度,并以较小的学习率(alpha)沿梯度反方向更新参数,以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下,实际中广泛采用随机梯度下降(SGD)。SGD在数据的小批量(mini-batch)上计算梯度进行更新,不仅速度更快,其引入的噪声有时还有助于提升神经网络的优化效果。 讲座重点阐述了Word2Vec模型。其工作原理是:首先用随机小数初始化词向量(避免全零以打破对称性);然后遍历语料库,基于中心词预测上下文词的概率;通过计算预测误差和梯度来更新词向量,使其能更好地预测周围词语。尽管方法简单,Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数,通过计算它们的点积得到概率分布,本质上属于不考虑词序的“词袋模型”。 讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量(一种与Word2Vec行为类似的斯坦福模型)。 最后,预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络 分类 词语相似度 词语类比
已摘要 阅读时间:12 分钟(4151 个字) 1 summary version