音频媒体文件

清除
标签搜索结果 for "多头注意力"
2025-03-04 | Transformer Deep Dive with Google Engineer | Foundation of LLMs and Modern AI
2025-06-15 20:50

Transformer架构深度解析:从注意力机制到位置编码

人工智能 深度学习 自然语言处理 Transformer架构 LLM 注意力机制 位置编码 多头注意力 KV缓存 归一化技术 模型推理优化
已摘要 阅读时间:17 分钟(5776 个字) 3 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers
2025-05-15 21:31

该讲座主要介绍了自然语言处理领域从循环神经网络(RNN)向基于自注意力机制和Transformer模型的转变。 首先,讲座回顾了以往使用双向长短期记忆网络(BiLSTM)进行编码、单向LSTM结合注意力机制进行解码的NLP模型,并指出了其在处理长距离依赖和并行计算方面的局限性。RNN存在“线性交互距离”问题,即模型难以捕捉序列中远距离词语间的依赖关系,因为信息需要逐词传递,导致梯度传播困难。此外,RNN的计算具有时序依赖性,无法充分利用GPU进行并行处理,计算效率随序列长度增加而降低。 接着,讲座提出,尽管注意力机制此前已与RNN结合使用以改善信息瓶颈等问题,但新的范式将更彻底地采用注意力,特别是自注意力机制,以完全取代循环结构。自注意力机制允许模型在处理单个句子时,让每个词直接关注到句子中的所有其他词,从而更好地捕捉长距离依赖,并实现高度并行化的计算。讲座预告将深入探讨自注意力的原理及其在Transformer模型中的应用。 此外,讲座还包含了课程安排的通知:新的详细讲义已发布;第四次作业将于一周后截止,由于Azure GPU资源问题,建议使用Colab进行模型训练;最终项目提案的反馈即将发布。

自然语言处理 深度学习 Transformer 自注意力 RNN 注意力机制 位置编码 多头注意力 编码器-解码器 机器翻译 预训练模型
已摘要 阅读时间:15 分钟(4947 个字) 2 summary versions
Generative AI Interview Prep 2024: LLMs, Transformers [Crash Course for AI/ML Engineers]
2025-05-14 10:18

该音频内容主要介绍了一个面向AI/ML工程师的生成式AI面试速成课程。主讲人讲解了一个时长一小时的短期课程,旨在帮助求职者准备与生成式AI和大型语言模型相关的面试问题。课程计划涵盖七个热门问题,包括生成模型的定义、生成模型与判别模型的区别,以及Transformer架构的细节(如嵌入、位置编码、多头注意力机制、层归一化、残差连接等)。 在具体内容中,主讲人首先定义了生成模型,指出其目标是学习数据的联合概率分布P(X,Y)以模拟数据生成过程,从而能够生成新的数据实例,并常用于无监督学习任务。生成模型的例子包括GPT系列、变分自编码器(VAEs)和生成对抗网络(GANs),可应用于图像生成、合成数据和语音生成等。 随后,内容详细对比了生成模型与判别模型。生成模型关注数据如何生成,学习联合概率P(X,Y);而判别模型仅关注学习条件概率P(Y|X)以区分不同类别,即学习决策边界。主讲人还提及了两种模型在训练焦点、数据用途和具体模型示例(如朴素贝叶斯、隐马尔可夫模型属于生成模型)上的差异。该速成课程被定位为面试准备的起点,并提及了一个更全面的包含100个问题的八小时深度学习面试课程。

生成式AI LLMs Transformer架构 AI/ML面试 生成模型 判别模型 自注意力机制 多头注意力 位置编码 深度学习
已摘要 阅读时间:10 分钟(3291 个字) 2 summary versions