音频媒体列表 - StreamSparkAI

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 7 - Attention, Final Projects and LLM Intro

2025-05-15 21:29

该讲座首先回顾了使用多层LSTM进行机器翻译的方法，并强调了评估机器翻译系统的重要性。重点讨论了机器翻译的评估方法，特别是BLEU（Bilingual Evaluation Understudy）评分机制。BLEU通过比较机器翻译结果与一个或多个人工参考译文之间的n-gram（通常是1到4-gram）重叠来打分，重叠越多分数越高，但也存在一定局限性，例如可能因词汇选择不同而给优质翻译低分，或因简单词语匹配而给劣质翻译加分。随后，讲座回顾了机器翻译技术的发展历程：从IBM在90年代末开创的统计短语翻译系统（在2000年代由谷歌等推广），到2005至2014年间研究者尝试的基于句法的翻译系统（旨在通过分析句子结构提升对德语、中文等语序差异较大语言的翻译效果，但收效甚微），最终演进到神经机器翻译（NMT）。NMT约在2014年出现，2015年参与评测，至2016年已超越其他方法，并展现出持续的显著性能提升，目前NMT系统的BLEU分数常能达到50至60分。最后，讲座预告了将介绍“注意力机制”（Attention），这是一种相对较新（不同于2000年前已有的多数神经网络概念）且在现代神经网络中至关重要的概念，它最初在机器翻译背景下被提出，并且是后续将讨论的Transformer模型的核心组成部分。

Natural Language Processing Machine Translation Attention Mechanism Neural Networks BLEU Score Large Language Models (LLMs) BERT Transformer Model Evaluation Research Projects Parameter-Efficient Fine-Tuning (PEFT) Ethical Considerations

已摘要阅读时间：13 分钟（4274 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks

2025-05-15 21:12

该斯坦福CS224N课程的第五讲主要介绍了神经网络的一些补充概念，并引入了自然语言处理中的语言模型任务。随后，课程详细讲解了循环神经网络（RNN）作为构建语言模型的一种方法，并提及了其在后续作业中的应用，同时也指出RNN并非构建语言模型的唯一途径，预告了之后将介绍Transformer模型。讲座还讨论了RNN存在的问题。在深入技术内容前，讲者简要分析了课程学生的构成，并强调了现代神经网络（尤其是语言模型）参数规模的巨大，已达数千亿级别。接着，讲座回顾了神经网络的发展历史：早期（80-90年代）神经网络虽有反向传播算法，但通常只有单一隐藏层，因为训练更深层的网络在当时非常困难，导致该领域停滞了约15年。深度学习的复兴始于2000年代末至2010年代，通过一些关键的技术改进（如更好的正则化方法），才使得深度神经网络的训练成为可能，并展现出远超浅层网络的性能。其中，正则化是一个重要方面。讲座对比了正则化的经典观点与现代大型神经网络中的新认知：经典观点认为正则化旨在防止模型过拟合（即模型在训练数据上表现好，但在新数据上泛化能力差，表现为验证集误差在训练到一定程度后开始上升）。然而，现代观点认为，对于参数量巨大的神经网络，在良好正则化的前提下，即使模型在训练集上达到近乎零误差（即几乎“记住”了整个训练集），其在验证集上的误差也可能持续下降，表明模型依然具备良好的泛化能力。这种现象挑战了传统上对“过拟合即灾难”的看法。

NLP Deep Learning Neural Networks Recurrent Neural Networks Language Models Regularization Gradient Problems Text Generation N-gram Models Stanford CS224N

已摘要阅读时间：12 分钟（4112 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing

2025-05-15 21:09

该讲座主要讨论了人类语言句子的句法结构和依存句法分析。讲座首先回顾了传统的短语结构文法（或称上下文无关文法），即通过词性（如名词、形容词、限定词、介词）将词语组合成更大的单元（如名词短语、介词短语），并逐步构建句子结构。随后，讲座重点转向了依存文法，这种方法关注词语之间的修饰和论元关系，确定句子中的核心词（head）以及修饰或依赖于该核心词的其他词语。讲座强调，这两种表示方法都可以用来分析句子的结构，理解词语如何组合以及相互修饰。讲座还提及，后续的作业将要求学生使用PyTorch构建一个神经依存句法分析器，并鼓励学生参加PyTorch教程。

NLP Dependency Parsing Syntactic Structure Dependency Grammar Neural Networks Treebanks Transition-based Parsing Graph-based Parsing Embeddings PyTorch

已摘要阅读时间：9 分钟（3003 个字） 1 summary version

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network

2025-05-15 21:07

斯坦福CS224N课程第二周周二的讲座主要回顾了作业一的提交情况，并介绍了作业二的内容。作业二包含三个主要部分：一是通过数学计算理解神经网络的运作原理；二是学习依存句法分析，涉及语言结构和语言学知识；三是开始使用PyTorch深度学习框架。为此，课程将在周五提供PyTorch的入门教程。讲座接着深入探讨了神经网络的数学基础，强调了神经网络通过层级结构学习中间表征的重要性。与传统机器学习模型不同，神经网络能够自我组织中间层的表征，以更好地服务于最终任务。讲座解释了神经网络中层的计算过程，包括输入向量与权重矩阵的乘法、加上偏置项，以及通过非线性激活函数得到下一层的输出。最后，讲座重点讨论了非线性激活函数的作用和发展。从早期因无法提供梯度而难以学习的阈值函数，到后来广泛应用的具有平滑梯度的Sigmoid和Tanh函数。Sigmoid函数输出非负，而Tanh函数可以视为Sigmoid的缩放和平移。尽管这些函数有效，但指数运算较为耗时。因此，后续发展出计算更简便的Hard Tanh，并最终引出了目前常用的ReLU（Rectified Linear Unit）激活函数。ReLU在负数区输出为零（梯度为零），在正数区输出等于输入（梯度为1）。尽管ReLU在负数区存在“神经元死亡”问题，但其简洁的梯度和在实践中的有效性使其成为主流选择，因为它能促进梯度的反向传播并实现某种程度的神经元特化。

Deep Learning Neural Networks Backpropagation Gradient Descent Activation Functions Matrix Calculus Computation Graphs PyTorch Automatic Differentiation Gradient Checking

已摘要阅读时间：10 分钟（3265 个字） 1 summary version

音频媒体文件

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 7 - Attention, Final Projects and LLM Intro

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network