音频媒体文件

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers
2025-05-15 21:31

该讲座主要介绍了自然语言处理领域从循环神经网络(RNN)向基于自注意力机制和Transformer模型的转变。 首先,讲座回顾了以往使用双向长短期记忆网络(BiLSTM)进行编码、单向LSTM结合注意力机制进行解码的NLP模型,并指出了其在处理长距离依赖和并行计算方面的局限性。RNN存在“线性交互距离”问题,即模型难以捕捉序列中远距离词语间的依赖关系,因为信息需要逐词传递,导致梯度传播困难。此外,RNN的计算具有时序依赖性,无法充分利用GPU进行并行处理,计算效率随序列长度增加而降低。 接着,讲座提出,尽管注意力机制此前已与RNN结合使用以改善信息瓶颈等问题,但新的范式将更彻底地采用注意力,特别是自注意力机制,以完全取代循环结构。自注意力机制允许模型在处理单个句子时,让每个词直接关注到句子中的所有其他词,从而更好地捕捉长距离依赖,并实现高度并行化的计算。讲座预告将深入探讨自注意力的原理及其在Transformer模型中的应用。 此外,讲座还包含了课程安排的通知:新的详细讲义已发布;第四次作业将于一周后截止,由于Azure GPU资源问题,建议使用Colab进行模型训练;最终项目提案的反馈即将发布。

自然语言处理 深度学习 Transformer 自注意力 RNN 注意力机制 位置编码 多头注意力 编码器-解码器 机器翻译 预训练模型
已摘要 阅读时间:15 分钟(4947 个字) 2 summary versions
Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 7 - Attention, Final Projects and LLM Intro
2025-05-15 21:29

该讲座首先回顾了使用多层LSTM进行机器翻译的方法,并强调了评估机器翻译系统的重要性。重点讨论了机器翻译的评估方法,特别是BLEU(Bilingual Evaluation Understudy)评分机制。BLEU通过比较机器翻译结果与一个或多个人工参考译文之间的n-gram(通常是1到4-gram)重叠来打分,重叠越多分数越高,但也存在一定局限性,例如可能因词汇选择不同而给优质翻译低分,或因简单词语匹配而给劣质翻译加分。 随后,讲座回顾了机器翻译技术的发展历程:从IBM在90年代末开创的统计短语翻译系统(在2000年代由谷歌等推广),到2005至2014年间研究者尝试的基于句法的翻译系统(旨在通过分析句子结构提升对德语、中文等语序差异较大语言的翻译效果,但收效甚微),最终演进到神经机器翻译(NMT)。NMT约在2014年出现,2015年参与评测,至2016年已超越其他方法,并展现出持续的显著性能提升,目前NMT系统的BLEU分数常能达到50至60分。 最后,讲座预告了将介绍“注意力机制”(Attention),这是一种相对较新(不同于2000年前已有的多数神经网络概念)且在现代神经网络中至关重要的概念,它最初在机器翻译背景下被提出,并且是后续将讨论的Transformer模型的核心组成部分。

Natural Language Processing Machine Translation Attention Mechanism Neural Networks BLEU Score Large Language Models (LLMs) BERT Transformer Model Evaluation Research Projects Parameter-Efficient Fine-Tuning (PEFT) Ethical Considerations
已摘要 阅读时间:13 分钟(4274 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks
2025-05-15 21:12

该斯坦福CS224N课程的第五讲主要介绍了神经网络的一些补充概念,并引入了自然语言处理中的语言模型任务。随后,课程详细讲解了循环神经网络(RNN)作为构建语言模型的一种方法,并提及了其在后续作业中的应用,同时也指出RNN并非构建语言模型的唯一途径,预告了之后将介绍Transformer模型。讲座还讨论了RNN存在的问题。 在深入技术内容前,讲者简要分析了课程学生的构成,并强调了现代神经网络(尤其是语言模型)参数规模的巨大,已达数千亿级别。 接着,讲座回顾了神经网络的发展历史:早期(80-90年代)神经网络虽有反向传播算法,但通常只有单一隐藏层,因为训练更深层的网络在当时非常困难,导致该领域停滞了约15年。深度学习的复兴始于2000年代末至2010年代,通过一些关键的技术改进(如更好的正则化方法),才使得深度神经网络的训练成为可能,并展现出远超浅层网络的性能。 其中,正则化是一个重要方面。讲座对比了正则化的经典观点与现代大型神经网络中的新认知:经典观点认为正则化旨在防止模型过拟合(即模型在训练数据上表现好,但在新数据上泛化能力差,表现为验证集误差在训练到一定程度后开始上升)。然而,现代观点认为,对于参数量巨大的神经网络,在良好正则化的前提下,即使模型在训练集上达到近乎零误差(即几乎“记住”了整个训练集),其在验证集上的误差也可能持续下降,表明模型依然具备良好的泛化能力。这种现象挑战了传统上对“过拟合即灾难”的看法。

NLP Deep Learning Neural Networks Recurrent Neural Networks Language Models Regularization Gradient Problems Text Generation N-gram Models Stanford CS224N
已摘要 阅读时间:12 分钟(4112 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing
2025-05-15 21:09

该讲座主要讨论了人类语言句子的句法结构和依存句法分析。讲座首先回顾了传统的短语结构文法(或称上下文无关文法),即通过词性(如名词、形容词、限定词、介词)将词语组合成更大的单元(如名词短语、介词短语),并逐步构建句子结构。随后,讲座重点转向了依存文法,这种方法关注词语之间的修饰和论元关系,确定句子中的核心词(head)以及修饰或依赖于该核心词的其他词语。讲座强调,这两种表示方法都可以用来分析句子的结构,理解词语如何组合以及相互修饰。讲座还提及,后续的作业将要求学生使用PyTorch构建一个神经依存句法分析器,并鼓励学生参加PyTorch教程。

NLP Dependency Parsing Syntactic Structure Dependency Grammar Neural Networks Treebanks Transition-based Parsing Graph-based Parsing Embeddings PyTorch
已摘要 阅读时间:9 分钟(3003 个字) 1 summary version
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 3 - Backpropagation, Neural Network
2025-05-15 21:07

斯坦福CS224N课程第二周周二的讲座主要回顾了作业一的提交情况,并介绍了作业二的内容。作业二包含三个主要部分:一是通过数学计算理解神经网络的运作原理;二是学习依存句法分析,涉及语言结构和语言学知识;三是开始使用PyTorch深度学习框架。为此,课程将在周五提供PyTorch的入门教程。 讲座接着深入探讨了神经网络的数学基础,强调了神经网络通过层级结构学习中间表征的重要性。与传统机器学习模型不同,神经网络能够自我组织中间层的表征,以更好地服务于最终任务。讲座解释了神经网络中层的计算过程,包括输入向量与权重矩阵的乘法、加上偏置项,以及通过非线性激活函数得到下一层的输出。 最后,讲座重点讨论了非线性激活函数的作用和发展。从早期因无法提供梯度而难以学习的阈值函数,到后来广泛应用的具有平滑梯度的Sigmoid和Tanh函数。Sigmoid函数输出非负,而Tanh函数可以视为Sigmoid的缩放和平移。尽管这些函数有效,但指数运算较为耗时。因此,后续发展出计算更简便的Hard Tanh,并最终引出了目前常用的ReLU(Rectified Linear Unit)激活函数。ReLU在负数区输出为零(梯度为零),在正数区输出等于输入(梯度为1)。尽管ReLU在负数区存在“神经元死亡”问题,但其简洁的梯度和在实践中的有效性使其成为主流选择,因为它能促进梯度的反向传播并实现某种程度的神经元特化。

Deep Learning Neural Networks Backpropagation Gradient Descent Activation Functions Matrix Calculus Computation Graphs PyTorch Automatic Differentiation Gradient Checking
已摘要 阅读时间:10 分钟(3265 个字) 1 summary version
2025-05-14 | 付鹏 - 确定性
2025-05-15 19:01

付鹏在2025年5月14日的分享中指出,市场的不确定性正趋于结束,确定性即将到来。他以德州扑克牌局为喻,解释了当前市场从混乱博弈(多人下注)向少数关键参与者(如G2日内瓦谈判)主导的阶段过渡,这一过程伴随着波动率的显著下降。 付鹏强调通过VIX指数及其期限结构(如contango和backwardation状态,以及1-3月价差)来量化市场恐慌程度和判断转折点。他认为,市场经历了从极度恐慌(高VIX、高backwardation、所有资产下跌,充斥负面信息和强硬言论)到恐慌消退的阶段。目前,市场已进入中间状态,表现为VIX结构从backwardation转向contango的初期(例如VIX指数1-3月价差转负),以及关键事件(如G2谈判)的明朗化,市场情绪和资产表现已提前反应。 在资产配置方面,恐慌消退初期,受益的首先是估值驱动型资产(分母端逻辑,如降息预期驱动),而非盈利驱动型资产。随着确定性进一步增强,价值板块可能受益,但需警惕估值风险的累积,并可能再次经历因利率预期变化导致的估值调整。 付鹏预测,若未来能达成临时性协议形成缓冲期(例如1-3个月),市场将持续向低波动、高确定性的方向移动,这可能成为未来一两个季度的主流交易逻辑。他强调优秀交易员应具备“牌手思维”,并依赖数据量化(如VIX、利率衍生品)而非单纯的现象或情绪进行决策,实现数据与现象的同步验证。

市场确定性 VIX指数 VIX期限结构 量化分析 交易策略 资产配置 中美谈判 中国经济 财富再分配 2025年
已摘要 阅读时间:8 分钟(2502 个字) 1 summary version
Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 1 - Intro and Word Vectors
2025-05-15 13:21

斯坦福大学CS224N课程(2024年春季学期“深度学习与自然语言处理”)第一讲由Christopher Manning主讲。他首先介绍了课程受欢迎的程度,并概述了本讲内容:课程安排、人类语言与词义,重点讲解诞生于2013年的Word2Vec算法(包括其目标函数、梯度、优化及演示)。 课程团队包括主讲人、因故缺席的助教负责人、课程经理及多位助教。课程信息主要通过官网发布,讨论则使用Ed平台而非邮件。首个作业已发布,下周二截止;答疑时间将从次日开始,周五有Python/NumPy辅导。 课程学习目标包括:1) 掌握NLP深度学习的基础和前沿方法(从词向量到大型语言模型、预训练、微调、可解释性、智能体等);2) 理解人类语言特性及计算机处理语言的难点;3) 培养学生构建实用NLP系统的能力。 评分由四项作业(近50%)、一个期末项目(可选默认或自定义,约50%)及参与度构成,允许6天延迟提交。作业要求独立完成,期末项目可团队合作。允许使用AI工具辅助学习(如编程),但禁止直接用于完成作业题目。 作业安排:A1为入门级Jupyter Notebook;A2侧重数学原理、神经网络理解、PyTorch入门及依存句法分析器构建;A3和A4为基于PyTorch和GPU(使用谷歌云)的大型项目,涉及机器翻译和基于Transformer的信息抽取。期末项目学生可选择有框架指导的默认项目或完全自定义项目,助教将分配导师或学生可自行联系。 最后,讲座将探讨人工智能背景下的人类语言与词义问题。

自然语言处理 深度学习 词向量 Word2Vec 大型语言模型 Transformer 分布式语义学 斯坦福大学 CS224N 梯度下降 基础模型
已摘要 阅读时间:12 分钟(3929 个字) 1 summary version
Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 2 - Word Vectors and Language Models
2025-05-15 13:21

该讲座首先通报了课程安排,包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度,并提醒学生合理使用预约资源。 核心内容回顾了优化基础,特别是梯度下降算法,即通过计算损失函数的梯度,并以较小的学习率(alpha)沿梯度反方向更新参数,以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下,实际中广泛采用随机梯度下降(SGD)。SGD在数据的小批量(mini-batch)上计算梯度进行更新,不仅速度更快,其引入的噪声有时还有助于提升神经网络的优化效果。 讲座重点阐述了Word2Vec模型。其工作原理是:首先用随机小数初始化词向量(避免全零以打破对称性);然后遍历语料库,基于中心词预测上下文词的概率;通过计算预测误差和梯度来更新词向量,使其能更好地预测周围词语。尽管方法简单,Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数,通过计算它们的点积得到概率分布,本质上属于不考虑词序的“词袋模型”。 讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量(一种与Word2Vec行为类似的斯坦福模型)。 最后,预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络 分类 词语相似度 词语类比
已摘要 阅读时间:12 分钟(4151 个字) 1 summary version
2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38

该讲座概述了大型语言模型(LLM)的构建过程。演讲者首先介绍了LLM(如ChatGPT、Claude、Gemini、Llama等)的基本概念,并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调,尽管学术界常关注架构与算法,但业界实践更侧重于数据、评估和系统的重要性,因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练(Pretraining)和后训练(Post-training)两个阶段。预训练阶段的目标是进行通用语言建模,让模型学习并理解大规模文本数据(如整个互联网的内容)。此阶段的核心任务是语言建模,即模型学习预测一个词元(token)序列出现的概率。 当前主流的LLM采用自回归(Autoregressive)语言模型。这类模型通过概率的链式法则,将整个序列的联合概率分解为一系列条件概率的乘积,即在给定前面所有词元的条件下,预测下一个词元出现的概率。其工作流程大致为:首先对输入文本进行词元化(tokenization),将词或子词转换为唯一的ID;然后将这些词元ID输入模型(通常是Transformer架构,但讲座未深入探讨架构细节);模型会输出一个在整个词汇表上的概率分布,表示下一个最可能的词元。在训练过程中,模型通过比较预测的词元分布与实际出现的词元(通常使用独热编码表示),并利用交叉熵损失函数(Cross-entropy loss)来调整模型参数,以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要,因为它定义了模型的词汇量大小,直接影响模型的输出维度。评估预训练模型的方法包括困惑度(Perplexity)和学术基准测试(如MMLU)。

大型语言模型 LLMs 预训练 后训练 RLHF DPO 数据处理 模型评估 规模法则 系统优化 词元化
已摘要 阅读时间:10 分钟(3289 个字) 3 summary versions
2024-04-12 | 3Blue1Brown | Transformers (how LLMs work) explained visually
2025-05-14 10:31

该转录文本主要解释了大型语言模型(如GPT)背后的核心技术——Transformer架构。GPT代表“生成式预训练Transformer”,意味着它能生成新内容,通过大量数据预先训练,而Transformer是其关键的神经网络结构。 Transformer的核心功能是预测序列中的下一个“词元”(token,通常是单词或词语的一部分)。通过不断地:接收一段文本、预测下一个最可能的词元、从概率分布中抽样选择一个词元、将其追加到文本末尾,并重复此过程,模型能够生成较长的连贯内容。 其内部工作流程大致如下: 1. **输入处理与词元化**:输入文本被分解为词元。 2. **词嵌入**:每个词元被转换为一个数字向量(词嵌入),该向量旨在编码词元的含义。 3. **注意力机制(Attention Block)**:词元向量序列通过注意力模块。在此模块中,不同词元的向量会相互“交流”,传递信息并更新各自的向量表示,从而使模型能够理解词语在特定上下文中的含义(例如,“model”在“机器学习模型”和“时尚模特”中的不同含义)。 4. **多层感知机(Multilayer Perceptron / Feed Forward Layer)**:经过注意力机制处理后的向量会并行通过多层感知机进行进一步的非线性变换,每个向量独立处理。 5. **重复与输出**:上述注意力模块和多层感知机模块的组合可以堆叠多层。最终,模型基于最后一个词元的处理结果,生成一个关于所有可能出现的下一个词元的概率分布。 除了文本生成,Transformer架构还广泛应用于机器翻译(其最初的提出场景)、文本到图像生成(如DALL-E、Midjourney)、语音识别和语音合成等多种任务。在构建聊天机器人时,通常会设定一个系统提示(如定义AI助手的角色),然后将用户输入作为对话的开端,让模型预测并生成AI助手的回复。 该解释将Transformer置于机器学习的更广阔背景下,强调其并非通过显式编程规则来执行任务,而是通过在一个具有大量可调参数(例如GPT-3拥有1750亿个参数)的灵活结构上,利用海量数据进行训练,从而学习模式和行为。

大型语言模型 Transformer架构 生成式AI 注意力机制 词嵌入 文本生成 深度学习 GPT模型 词元化 概率分布
已摘要 阅读时间:12 分钟(3911 个字) 2 summary versions