音频媒体列表 - StreamSparkAI

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks

2025-05-15 21:12

该斯坦福CS224N课程的第五讲主要介绍了神经网络的一些补充概念，并引入了自然语言处理中的语言模型任务。随后，课程详细讲解了循环神经网络（RNN）作为构建语言模型的一种方法，并提及了其在后续作业中的应用，同时也指出RNN并非构建语言模型的唯一途径，预告了之后将介绍Transformer模型。讲座还讨论了RNN存在的问题。在深入技术内容前，讲者简要分析了课程学生的构成，并强调了现代神经网络（尤其是语言模型）参数规模的巨大，已达数千亿级别。接着，讲座回顾了神经网络的发展历史：早期（80-90年代）神经网络虽有反向传播算法，但通常只有单一隐藏层，因为训练更深层的网络在当时非常困难，导致该领域停滞了约15年。深度学习的复兴始于2000年代末至2010年代，通过一些关键的技术改进（如更好的正则化方法），才使得深度神经网络的训练成为可能，并展现出远超浅层网络的性能。其中，正则化是一个重要方面。讲座对比了正则化的经典观点与现代大型神经网络中的新认知：经典观点认为正则化旨在防止模型过拟合（即模型在训练数据上表现好，但在新数据上泛化能力差，表现为验证集误差在训练到一定程度后开始上升）。然而，现代观点认为，对于参数量巨大的神经网络，在良好正则化的前提下，即使模型在训练集上达到近乎零误差（即几乎“记住”了整个训练集），其在验证集上的误差也可能持续下降，表明模型依然具备良好的泛化能力。这种现象挑战了传统上对“过拟合即灾难”的看法。

NLP Deep Learning Neural Networks Recurrent Neural Networks Language Models Regularization Gradient Problems Text Generation N-gram Models Stanford CS224N

已摘要阅读时间：12 分钟（4112 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network

2025-05-15 21:07

斯坦福CS224N课程第二周周二的讲座主要回顾了作业一的提交情况，并介绍了作业二的内容。作业二包含三个主要部分：一是通过数学计算理解神经网络的运作原理；二是学习依存句法分析，涉及语言结构和语言学知识；三是开始使用PyTorch深度学习框架。为此，课程将在周五提供PyTorch的入门教程。讲座接着深入探讨了神经网络的数学基础，强调了神经网络通过层级结构学习中间表征的重要性。与传统机器学习模型不同，神经网络能够自我组织中间层的表征，以更好地服务于最终任务。讲座解释了神经网络中层的计算过程，包括输入向量与权重矩阵的乘法、加上偏置项，以及通过非线性激活函数得到下一层的输出。最后，讲座重点讨论了非线性激活函数的作用和发展。从早期因无法提供梯度而难以学习的阈值函数，到后来广泛应用的具有平滑梯度的Sigmoid和Tanh函数。Sigmoid函数输出非负，而Tanh函数可以视为Sigmoid的缩放和平移。尽管这些函数有效，但指数运算较为耗时。因此，后续发展出计算更简便的Hard Tanh，并最终引出了目前常用的ReLU（Rectified Linear Unit）激活函数。ReLU在负数区输出为零（梯度为零），在正数区输出等于输入（梯度为1）。尽管ReLU在负数区存在“神经元死亡”问题，但其简洁的梯度和在实践中的有效性使其成为主流选择，因为它能促进梯度的反向传播并实现某种程度的神经元特化。

Deep Learning Neural Networks Backpropagation Gradient Descent Activation Functions Matrix Calculus Computation Graphs PyTorch Automatic Differentiation Gradient Checking

已摘要阅读时间：10 分钟（3265 个字） 1 summary version

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 2 - Word Vectors and Language Models

2025-05-15 13:21

该讲座首先通报了课程安排，包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度，并提醒学生合理使用预约资源。核心内容回顾了优化基础，特别是梯度下降算法，即通过计算损失函数的梯度，并以较小的学习率（alpha）沿梯度反方向更新参数，以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下，实际中广泛采用随机梯度下降（SGD）。SGD在数据的小批量（mini-batch）上计算梯度进行更新，不仅速度更快，其引入的噪声有时还有助于提升神经网络的优化效果。讲座重点阐述了Word2Vec模型。其工作原理是：首先用随机小数初始化词向量（避免全零以打破对称性）；然后遍历语料库，基于中心词预测上下文词的概率；通过计算预测误差和梯度来更新词向量，使其能更好地预测周围词语。尽管方法简单，Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数，通过计算它们的点积得到概率分布，本质上属于不考虑词序的“词袋模型”。讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量（一种与Word2Vec行为类似的斯坦福模型）。最后，预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络分类词语相似度词语类比

已摘要阅读时间：12 分钟（4151 个字） 1 summary version

音频媒体文件

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 2 - Word Vectors and Language Models