音频媒体列表 - StreamSparkAI

2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela

2025-05-20 23:43

多模态深度学习：NLP与图像融合前沿

多模态深度学习自然语言处理计算机视觉人工智能 Transformer 对比学习 CLIP模型基础模型模型评估多模态融合

已摘要阅读时间：13 分钟（4213 个字） 1 summary version

2025-04-01 | Stanford CS25: V5 I Overview of Transformers

2025-05-18 15:29

讲座系统地介绍了transformers的基本原理与发展历程，内容包括词向量和上下文嵌入的演变、自注意力机制中查询、键和值的工作原理、位置编码与多头注意力的作用以及最终实现的模型架构。讲者阐述了大规模语言模型预训练的关键策略，如数据混合、两阶段训练以及与人类语言学习数据量对比带来的启示，并探讨了微调、链式思维推理、基于人类反馈的强化学习等后续优化方法。讲座还展示了transformers在自然语言处理、计算机视觉、语音、生物信息、机器人等多个领域的广泛应用，并展望了模型可解释性、终身学习、设备端部署和自我改进智能体的发展前景，同时提出了应对高计算成本和环境影响的挑战。

人工智能 (AI) Transformer 大型语言模型 (LLM) 预训练训练后策略思维链 (CoT) 强化学习 (RLHF) AI智能体数据策略模型可解释性持续学习通用人工智能 (AGI)

已摘要阅读时间：22 分钟（7621 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining

2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模（subword modeling）技术，该技术通过将词汇分解为子词单元（如字符、字符组合），以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言（如斯瓦希里语有大量动词变位）时的局限性，从而提升模型对词汇的覆盖和泛化能力，避免将未知词统一映射为“unk”符号导致信息丢失。随后，课程计划探讨预训练的动机（从词嵌入出发）、三种主要的预训练方法（解码器、编码器、编码器-解码器架构）、预训练赋予模型的能力，以及大型模型和上下文学习（in-context learning）等相关主题。讲座开始时还提及了课程作业（如第五项作业将涵盖预训练、Transformer等内容）和项目提案的截止日期安排。

NLP 预训练大语言模型 Transformer 子词建模掩码语言建模上下文学习微调 BERT GPT 思维链提示

已摘要阅读时间：12 分钟（4127 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers

2025-05-15 21:31

该讲座主要介绍了自然语言处理领域从循环神经网络（RNN）向基于自注意力机制和Transformer模型的转变。首先，讲座回顾了以往使用双向长短期记忆网络（BiLSTM）进行编码、单向LSTM结合注意力机制进行解码的NLP模型，并指出了其在处理长距离依赖和并行计算方面的局限性。RNN存在“线性交互距离”问题，即模型难以捕捉序列中远距离词语间的依赖关系，因为信息需要逐词传递，导致梯度传播困难。此外，RNN的计算具有时序依赖性，无法充分利用GPU进行并行处理，计算效率随序列长度增加而降低。接着，讲座提出，尽管注意力机制此前已与RNN结合使用以改善信息瓶颈等问题，但新的范式将更彻底地采用注意力，特别是自注意力机制，以完全取代循环结构。自注意力机制允许模型在处理单个句子时，让每个词直接关注到句子中的所有其他词，从而更好地捕捉长距离依赖，并实现高度并行化的计算。讲座预告将深入探讨自注意力的原理及其在Transformer模型中的应用。此外，讲座还包含了课程安排的通知：新的详细讲义已发布；第四次作业将于一周后截止，由于Azure GPU资源问题，建议使用Colab进行模型训练；最终项目提案的反馈即将发布。

自然语言处理深度学习 Transformer 自注意力 RNN 注意力机制位置编码多头注意力编码器-解码器机器翻译预训练模型

已摘要阅读时间：15 分钟（4947 个字） 2 summary versions

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 7 - Attention, Final Projects and LLM Intro

2025-05-15 21:29

该讲座首先回顾了使用多层LSTM进行机器翻译的方法，并强调了评估机器翻译系统的重要性。重点讨论了机器翻译的评估方法，特别是BLEU（Bilingual Evaluation Understudy）评分机制。BLEU通过比较机器翻译结果与一个或多个人工参考译文之间的n-gram（通常是1到4-gram）重叠来打分，重叠越多分数越高，但也存在一定局限性，例如可能因词汇选择不同而给优质翻译低分，或因简单词语匹配而给劣质翻译加分。随后，讲座回顾了机器翻译技术的发展历程：从IBM在90年代末开创的统计短语翻译系统（在2000年代由谷歌等推广），到2005至2014年间研究者尝试的基于句法的翻译系统（旨在通过分析句子结构提升对德语、中文等语序差异较大语言的翻译效果，但收效甚微），最终演进到神经机器翻译（NMT）。NMT约在2014年出现，2015年参与评测，至2016年已超越其他方法，并展现出持续的显著性能提升，目前NMT系统的BLEU分数常能达到50至60分。最后，讲座预告了将介绍“注意力机制”（Attention），这是一种相对较新（不同于2000年前已有的多数神经网络概念）且在现代神经网络中至关重要的概念，它最初在机器翻译背景下被提出，并且是后续将讨论的Transformer模型的核心组成部分。

Natural Language Processing Machine Translation Attention Mechanism Neural Networks BLEU Score Large Language Models (LLMs) BERT Transformer Model Evaluation Research Projects Parameter-Efficient Fine-Tuning (PEFT) Ethical Considerations

已摘要阅读时间：13 分钟（4274 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 1 - Intro and Word Vectors

2025-05-15 13:21

斯坦福大学CS224N课程（2024年春季学期“深度学习与自然语言处理”）第一讲由Christopher Manning主讲。他首先介绍了课程受欢迎的程度，并概述了本讲内容：课程安排、人类语言与词义，重点讲解诞生于2013年的Word2Vec算法（包括其目标函数、梯度、优化及演示）。课程团队包括主讲人、因故缺席的助教负责人、课程经理及多位助教。课程信息主要通过官网发布，讨论则使用Ed平台而非邮件。首个作业已发布，下周二截止；答疑时间将从次日开始，周五有Python/NumPy辅导。课程学习目标包括：1) 掌握NLP深度学习的基础和前沿方法（从词向量到大型语言模型、预训练、微调、可解释性、智能体等）；2) 理解人类语言特性及计算机处理语言的难点；3) 培养学生构建实用NLP系统的能力。评分由四项作业（近50%）、一个期末项目（可选默认或自定义，约50%）及参与度构成，允许6天延迟提交。作业要求独立完成，期末项目可团队合作。允许使用AI工具辅助学习（如编程），但禁止直接用于完成作业题目。作业安排：A1为入门级Jupyter Notebook；A2侧重数学原理、神经网络理解、PyTorch入门及依存句法分析器构建；A3和A4为基于PyTorch和GPU（使用谷歌云）的大型项目，涉及机器翻译和基于Transformer的信息抽取。期末项目学生可选择有框架指导的默认项目或完全自定义项目，助教将分配导师或学生可自行联系。最后，讲座将探讨人工智能背景下的人类语言与词义问题。

自然语言处理深度学习词向量 Word2Vec 大型语言模型 Transformer 分布式语义学斯坦福大学 CS224N 梯度下降基础模型

已摘要阅读时间：12 分钟（3929 个字） 1 summary version

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 01 Overview and Tokenization

2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程，包括数据、系统与建模。该课程的讲座将发布于YouTube。主讲人Percy认为，当前研究者与底层技术日益脱节，许多人仅依赖调用大型专有模型接口。他强调，尽管便捷，但这些抽象是“泄露的”，真正的基础研究仍需深入理解技术栈的各个层面。因此，课程的核心理念是“要理解它，就必须构建它”。鉴于前沿模型（如GPT-4）规模庞大、成本高昂且技术细节不公开，学生将专注于构建小型语言模型。Percy承认，小型模型可能无法完全复现大规模模型的某些特性（如不同模块的计算占比变化、特定能力的涌现）。尽管如此，课程仍能传授三个层面的知识：1) 模型运行的“机制”（如Transformer架构、并行计算）；2) “思维模式”（如追求硬件极限性能、严肃对待规模化问题，这被认为是OpenAI成功的关键）；3) 关于数据与模型选择的“直觉”（但这部分受规模效应影响，只能部分传授，因为小规模有效的策略未必适用于大规模）。 Percy还对“惨痛的教训”进行了解读，指出并非“规模决定一切”，而是“规模化的有效算法”至关重要。他强调，效率（尤其是算法效率，其进步已超越摩尔定律）在大规模训练中更为关键。课程旨在引导学生思考的核心问题是：在给定的计算和数据预算下，如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算规模法则模型训练模型对齐数据处理 GPU优化

已摘要阅读时间：15 分钟（4925 个字） 2 summary versions