音频媒体文件

清除
标签搜索结果 for "Transformer"
2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
2025-05-20 23:43

多模态深度学习:NLP与图像融合前沿

多模态深度学习 自然语言处理 计算机视觉 人工智能 Transformer 对比学习 CLIP模型 基础模型 模型评估 多模态融合
已摘要 阅读时间:13 分钟(4213 个字) 1 summary version
2025-04-01 | Stanford CS25: V5 I Overview of Transformers
2025-05-18 15:29

讲座系统地介绍了transformers的基本原理与发展历程,内容包括词向量和上下文嵌入的演变、自注意力机制中查询、键和值的工作原理、位置编码与多头注意力的作用以及最终实现的模型架构。讲者阐述了大规模语言模型预训练的关键策略,如数据混合、两阶段训练以及与人类语言学习数据量对比带来的启示,并探讨了微调、链式思维推理、基于人类反馈的强化学习等后续优化方法。讲座还展示了transformers在自然语言处理、计算机视觉、语音、生物信息、机器人等多个领域的广泛应用,并展望了模型可解释性、终身学习、设备端部署和自我改进智能体的发展前景,同时提出了应对高计算成本和环境影响的挑战。

人工智能 (AI) Transformer 大型语言模型 (LLM) 预训练 训练后策略 思维链 (CoT) 强化学习 (RLHF) AI智能体 数据策略 模型可解释性 持续学习 通用人工智能 (AGI)
已摘要 阅读时间:22 分钟(7621 个字) 2 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining
2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模(subword modeling)技术,该技术通过将词汇分解为子词单元(如字符、字符组合),以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言(如斯瓦希里语有大量动词变位)时的局限性,从而提升模型对词汇的覆盖和泛化能力,避免将未知词统一映射为“unk”符号导致信息丢失。随后,课程计划探讨预训练的动机(从词嵌入出发)、三种主要的预训练方法(解码器、编码器、编码器-解码器架构)、预训练赋予模型的能力,以及大型模型和上下文学习(in-context learning)等相关主题。讲座开始时还提及了课程作业(如第五项作业将涵盖预训练、Transformer等内容)和项目提案的截止日期安排。

NLP 预训练 大语言模型 Transformer 子词建模 掩码语言建模 上下文学习 微调 BERT GPT 思维链提示
已摘要 阅读时间:12 分钟(4127 个字) 2 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers
2025-05-15 21:31

该讲座主要介绍了自然语言处理领域从循环神经网络(RNN)向基于自注意力机制和Transformer模型的转变。 首先,讲座回顾了以往使用双向长短期记忆网络(BiLSTM)进行编码、单向LSTM结合注意力机制进行解码的NLP模型,并指出了其在处理长距离依赖和并行计算方面的局限性。RNN存在“线性交互距离”问题,即模型难以捕捉序列中远距离词语间的依赖关系,因为信息需要逐词传递,导致梯度传播困难。此外,RNN的计算具有时序依赖性,无法充分利用GPU进行并行处理,计算效率随序列长度增加而降低。 接着,讲座提出,尽管注意力机制此前已与RNN结合使用以改善信息瓶颈等问题,但新的范式将更彻底地采用注意力,特别是自注意力机制,以完全取代循环结构。自注意力机制允许模型在处理单个句子时,让每个词直接关注到句子中的所有其他词,从而更好地捕捉长距离依赖,并实现高度并行化的计算。讲座预告将深入探讨自注意力的原理及其在Transformer模型中的应用。 此外,讲座还包含了课程安排的通知:新的详细讲义已发布;第四次作业将于一周后截止,由于Azure GPU资源问题,建议使用Colab进行模型训练;最终项目提案的反馈即将发布。

自然语言处理 深度学习 Transformer 自注意力 RNN 注意力机制 位置编码 多头注意力 编码器-解码器 机器翻译 预训练模型
已摘要 阅读时间:15 分钟(4947 个字) 2 summary versions
Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 7 - Attention, Final Projects and LLM Intro
2025-05-15 21:29

该讲座首先回顾了使用多层LSTM进行机器翻译的方法,并强调了评估机器翻译系统的重要性。重点讨论了机器翻译的评估方法,特别是BLEU(Bilingual Evaluation Understudy)评分机制。BLEU通过比较机器翻译结果与一个或多个人工参考译文之间的n-gram(通常是1到4-gram)重叠来打分,重叠越多分数越高,但也存在一定局限性,例如可能因词汇选择不同而给优质翻译低分,或因简单词语匹配而给劣质翻译加分。 随后,讲座回顾了机器翻译技术的发展历程:从IBM在90年代末开创的统计短语翻译系统(在2000年代由谷歌等推广),到2005至2014年间研究者尝试的基于句法的翻译系统(旨在通过分析句子结构提升对德语、中文等语序差异较大语言的翻译效果,但收效甚微),最终演进到神经机器翻译(NMT)。NMT约在2014年出现,2015年参与评测,至2016年已超越其他方法,并展现出持续的显著性能提升,目前NMT系统的BLEU分数常能达到50至60分。 最后,讲座预告了将介绍“注意力机制”(Attention),这是一种相对较新(不同于2000年前已有的多数神经网络概念)且在现代神经网络中至关重要的概念,它最初在机器翻译背景下被提出,并且是后续将讨论的Transformer模型的核心组成部分。

Natural Language Processing Machine Translation Attention Mechanism Neural Networks BLEU Score Large Language Models (LLMs) BERT Transformer Model Evaluation Research Projects Parameter-Efficient Fine-Tuning (PEFT) Ethical Considerations
已摘要 阅读时间:13 分钟(4274 个字) 2 summary versions
Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 1 - Intro and Word Vectors
2025-05-15 13:21

斯坦福大学CS224N课程(2024年春季学期“深度学习与自然语言处理”)第一讲由Christopher Manning主讲。他首先介绍了课程受欢迎的程度,并概述了本讲内容:课程安排、人类语言与词义,重点讲解诞生于2013年的Word2Vec算法(包括其目标函数、梯度、优化及演示)。 课程团队包括主讲人、因故缺席的助教负责人、课程经理及多位助教。课程信息主要通过官网发布,讨论则使用Ed平台而非邮件。首个作业已发布,下周二截止;答疑时间将从次日开始,周五有Python/NumPy辅导。 课程学习目标包括:1) 掌握NLP深度学习的基础和前沿方法(从词向量到大型语言模型、预训练、微调、可解释性、智能体等);2) 理解人类语言特性及计算机处理语言的难点;3) 培养学生构建实用NLP系统的能力。 评分由四项作业(近50%)、一个期末项目(可选默认或自定义,约50%)及参与度构成,允许6天延迟提交。作业要求独立完成,期末项目可团队合作。允许使用AI工具辅助学习(如编程),但禁止直接用于完成作业题目。 作业安排:A1为入门级Jupyter Notebook;A2侧重数学原理、神经网络理解、PyTorch入门及依存句法分析器构建;A3和A4为基于PyTorch和GPU(使用谷歌云)的大型项目,涉及机器翻译和基于Transformer的信息抽取。期末项目学生可选择有框架指导的默认项目或完全自定义项目,助教将分配导师或学生可自行联系。 最后,讲座将探讨人工智能背景下的人类语言与词义问题。

自然语言处理 深度学习 词向量 Word2Vec 大型语言模型 Transformer 分布式语义学 斯坦福大学 CS224N 梯度下降 基础模型
已摘要 阅读时间:12 分钟(3929 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程,包括数据、系统与建模。该课程的讲座将发布于YouTube。 主讲人Percy认为,当前研究者与底层技术日益脱节,许多人仅依赖调用大型专有模型接口。他强调,尽管便捷,但这些抽象是“泄露的”,真正的基础研究仍需深入理解技术栈的各个层面。因此,课程的核心理念是“要理解它,就必须构建它”。 鉴于前沿模型(如GPT-4)规模庞大、成本高昂且技术细节不公开,学生将专注于构建小型语言模型。Percy承认,小型模型可能无法完全复现大规模模型的某些特性(如不同模块的计算占比变化、特定能力的涌现)。 尽管如此,课程仍能传授三个层面的知识:1) 模型运行的“机制”(如Transformer架构、并行计算);2) “思维模式”(如追求硬件极限性能、严肃对待规模化问题,这被认为是OpenAI成功的关键);3) 关于数据与模型选择的“直觉”(但这部分受规模效应影响,只能部分传授,因为小规模有效的策略未必适用于大规模)。 Percy还对“惨痛的教训”进行了解读,指出并非“规模决定一切”,而是“规模化的有效算法”至关重要。他强调,效率(尤其是算法效率,其进步已超越摩尔定律)在大规模训练中更为关键。 课程旨在引导学生思考的核心问题是:在给定的计算和数据预算下,如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算 规模法则 模型训练 模型对齐 数据处理 GPU优化
已摘要 阅读时间:15 分钟(4925 个字) 2 summary versions