音频媒体文件

清除
标签搜索结果 for "深度学习"
Vision Transformer (ViT) Explained By Google Engineer | MultiModal LLM | Diffusion
2025-06-15 21:05

视觉Transformer革新图像处理 多模态LLM新引擎

Vision Transformer (ViT) 计算机视觉 多模态LLM 自注意力机制 图像编码 深度学习 Transformer架构 CLIP模型 图像生成 Patch Embedding 全局上下文建模 人工智能
已摘要 阅读时间:13 分钟(4289 个字) 3 summary versions
2025-03-04 | Transformer Deep Dive with Google Engineer | Foundation of LLMs and Modern AI
2025-06-15 20:50

Transformer架构深度解析:从注意力机制到位置编码

人工智能 深度学习 自然语言处理 Transformer架构 LLM 注意力机制 位置编码 多头注意力 KV缓存 归一化技术 模型推理优化
已摘要 阅读时间:17 分钟(5776 个字) 3 summary versions
应用深度学习 | 陈縕侬 | ADL 8.2: Parameter-Efficient Fine-Tuning (Adapter, LoRA) 如何低成本微调模型
2025-06-07 14:14

深度学习模型微调新方法:Adapter与LoRA的高效实践

参数高效微调 大语言模型 LoRA Adapter Tuning 深度学习 模型微调 低成本微调 低秩适配 指令微调
已摘要 阅读时间:6 分钟(1895 个字) 2 summary versions
2022-10-30 | Lex Fridman Podcast | Andrej Karpathy: Tesla AI, Self-Driving, Optimus, Aliens, and AGI
2025-06-02 10:26

AI研究与生物启发:从神经网络到宇宙探索

人工智能 神经网络 深度学习 AGI 自动驾驶 Tesla AI OpenAI Andrej Karpathy 合成智能 Optimus
已摘要 阅读时间:21 分钟(7165 个字) 3 summary versions
BiliBili | IBM RethinkFun | 三分钟学会大模型PEFT的LORA算法 lora_rank lora_alpha
2025-06-01 22:18

LORA算法原理与参数高效微调技巧

LoRA算法 参数高效微调 大模型 人工智能 深度学习 低秩适应 模型微调 权重矩阵 lora_rank lora_alpha 计算效率
已摘要 阅读时间:4 分钟(1298 个字) 1 summary version
2025 MIT | MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention
2025-05-18 16:28

讲师Ava在讲座中详细介绍了深度序列建模的基本概念和实际应用。她首先通过二维平面上预测小球运动轨迹的例子说明,在处理带有时间依赖的数据时,历史信息对预测结果的重要性。接着,她回顾了前一讲中关于感知机和前馈神经网络的内容,并阐释了如何将这些基础模型扩展到序列数据场景,即通过递归神经网络(RNN)传递和更新隐藏状态,从而捕捉数据的时序关系。讲座还指出了序列数据在语音、文本、医疗信号、金融数据等领域内的广泛存在,为后续探讨更先进的基于注意力机制的序列模型奠定了理论基础。

深度序列建模 循环神经网络 (RNN) 自注意力机制 Transformer 模型 大型语言模型 (LLMs) 自然语言处理 (NLP) 梯度问题 长期依赖 深度学习 MIT 6.S191
已摘要 阅读时间:9 分钟(3079 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws
2025-05-17 21:56

该讲座主要探讨了大规模语言模型(LLM)的伸缩法则(Scaling Laws),旨在通过研究小模型的行为来预测和优化大模型的训练。 核心内容包括: 1. **伸缩法则的动机与历史**:伸缩法则旨在建立模型性能与计算资源(如数据量、模型大小、训练步数)之间的可预测关系,从而在有限的计算预算下高效训练出最佳模型。讲座回顾了伸缩法则思想的早期渊源,如贝尔实验室1993年的工作及后续研究,强调了从理论边界到经验拟合的转变。 2. **关键技术与方法**: * **最大更新参数化 (μP)**:一种旨在使超参数(尤其是学习率)在不同模型宽度下保持稳定的技术。通过调整特定层(如矩阵类、嵌入层、输出层)的初始化方差和学习率缩放,μP试图简化从小型模型到大型模型的超参数迁移。CerebrasGPT和MiniCPM等模型应用了μP,并发现其有助于稳定训练和预测伸缩行为。Lingle的预印本研究进一步验证了μP在宽度伸缩时的有效性,但也指出了其局限性,如对可学习的RMSNorm增益、某些优化器(如Lion)和强权重衰减不鲁棒。 * **Chinchilla伸缩法则与数据/模型权衡**:DeepMind的Chinchilla论文提出了在固定计算预算下,模型大小和训练数据量之间存在最优配比。讲座讨论了如何拟合这类伸缩法则,如$L(N,D) = E + AN^{-\alpha} + BD^{-\beta}$。 * **WSD学习率调度 (Warmup-Stable-Decay)**:为了降低拟合Chinchilla伸缩法则所需的大量完整训练成本,MiniCPM和DeepSeek等采用了分阶段(预热-稳定-衰减)学习率调度。这种方法允许从稳定阶段的检查点开始衰减学习率,从而以较低成本(线性而非平方级)获得不同数据量下的模型性能点,用于伸缩法则分析。 * **IsoFLOP分析**:另一种确定最优模型和数据规模的方法,通过在恒定计算量(FLOPs)下比较不同模型配置的性能。DeepSeek、Llama 3和Hunyuan等模型采用了此类分析。 3. **近期模型案例分析**: * **CerebrasGPT**:应用μP实现了更稳定的伸缩,并基于Chinchilla法则进行训练。 * **MiniCPM**:结合μP和WSD学习率进行精细的伸缩计算,以较小模型尺寸(1-2.5B)实现了高性能,并发现最优数据与模型参数量之比远高于早期Chinchilla研究(如平均192:1,而非20:1)。 * **DeepSeek**:未使用μP,而是直接通过小规模实验估计最优批次大小和学习率的伸缩规律,并采用WSD式学习率进行Chinchilla分析(IsoFLOP方法),其伸缩模型能较好预测最终模型性能。 * **Llama 3**:据报道采用IsoFLOPs式伸缩,数据与参数比约为39:1。 * **Hunyuan-Large**:针对MoE模型,采用IsoFLOPs式伸缩分析激活参数量,发现数据与激活参数的最优比率为96:1。 * **MiniMax-01**:关注架构选择对伸缩法则的影响,结合Chinchilla方法1进行分析。 4. **伸缩实践总结与挑战**: * **挑战**:如何设定模型架构超参数(宽度、深度等)、优化器超参数(学习率、批次大小),以及如何经济地进行Chinchilla式的大范围扫描。 * **解决方案趋势**:依赖超参数稳定性假设或使用μP;在小规模上搜索最优学习率/批次大小,然后固定或预测其伸缩行为;采用WSD等替代学习率调度方案以降低伸缩分析成本。 讲座强调,通过系统性的伸缩法则研究,可以在训练昂贵的大模型前,更科学地做出架构选择和超参数设定,从而提升研发效率和模型性能。近期研究趋势表明,为达到最优性能,模型可能需要比以往认为的更多的数据进行训练。

LLM Scaling Laws 模型训练 超参数优化 Chinchilla法则 IsoFLOP分析 μP 数据伸缩 模型伸缩 训练效率 深度学习
已摘要 阅读时间:13 分钟(4437 个字) 2 summary versions
Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy
2025-05-16 20:54

该转录文本主要介绍了斯坦福大学CS25课程“Transformers United V2”的概览。课程聚焦于深度学习模型“Transformers”,该模型自2017年问世以来,已革新自然语言处理(NLP)领域,并广泛应用于计算机视觉、强化学习、生物学等多个方向。课程旨在深入解析Transformers的工作原理、不同类型及其应用,并邀请了领域内专家进行分享。 几位课程讲师进行了自我介绍,并阐述了课程目标,即帮助学生理解Transformers的运作机制、应用场景及前沿研究动态。 随后,内容回顾了Transformers的发展历程:从2017年论文《Attention is All You Need》的提出,标志着Transformers时代的开启,到其在NLP领域的迅速普及,再到2018-2020年间扩展至计算机视觉、生物信息学等领域,以及2021年至今生成模型(如GPT、DALL-E、ChatGPT)的爆发式增长。讲师强调了Transformers在处理长序列、理解上下文方面的优势,超越了早期的RNN和LSTM模型。 目前,Transformers在零样本泛化、多模态任务、音频与艺术创作、代码生成以及初步的逻辑推理方面展现出强大能力,并通过强化学习与人类反馈(RLHF)技术提升了与人类的交互和对齐。 展望未来,Transformers有望在视频理解与生成、金融、商业等领域取得突破,甚至可能用于文学创作。发展方向包括通用智能体、特定领域模型(如医疗GPT、法律GPT)及“专家模型”混合系统。然而,实现这些愿景面临诸多挑战: 1. **记忆与交互**:当前模型缺乏长期记忆和持续学习能力。 2. **计算复杂度**:注意力机制的二次方复杂度亟待优化。 3. **可控性**:需增强对模型输出的精确控制。 4. **与人类认知对齐**:需进一步研究如何使模型的工作方式更接近人类大脑。 最后,一位讲师(可能为Andrej Karpathy)简述了AI领域的发展背景,以此引出设立Transformers课程的初衷。

Transformers 深度学习 自然语言处理 注意力机制 模型架构 人工智能 计算机视觉 GPT模型 上下文学习 AI发展史 计算效率 未来AI
已摘要 阅读时间:14 分钟(4802 个字) 3 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 11 - Benchmarking by Yann Dubois
2025-05-16 20:35

该演讲主要讨论了机器学习领域中基准测试和评估的核心作用。主讲人Yann Dubois指出,评估贯穿模型从训练、开发、选择到部署及学术发表的整个生命周期,但不同阶段对评估方法(如速度、成本、可微性、可信度、任务相关性、指标绝对性)有不同侧重。学术基准测试(如MMLU)对推动领域进步至关重要,强调可复现性、标准化及长期有效性,而非指标的短期完美。演讲进一步区分了NLP中的两类评估任务:封闭式任务(如情感分析、文本蕴含),其答案固定,评估方法成熟;以及开放式任务(如文本生成),其答案多样,评估更复杂。

自然语言处理 机器学习 深度学习 基准测试 模型评估 大型语言模型 文本生成 文本分类 评估指标 数据污染 人工评估 LLM评估器
已摘要 阅读时间:14 分钟(4806 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 6 - Sequence to Sequence Models
2025-05-15 22:01

该讲座是斯坦福CS224N课程关于自然语言处理与深度学习的第六讲,主要延续了先前关于语言模型和循环神经网络(RNN)的讨论。 核心内容包括: 1. **回顾与展望**:讲座首先回顾了语言模型(预测下一个词的系统)和RNN(能处理任意长度序列输入、每步共享权重并可选输出的神经网络架构)的基本概念。接着预告将介绍一种更高级的RNN——长短期记忆网络(LSTM),并在后续内容中探讨神经机器翻译。 2. **语言模型评估**:详细阐述了评估语言模型的标准指标——困惑度(Perplexity)。解释了其计算方法(本质上是交叉熵的指数形式)、历史背景(由Fred Jelinek提出,旨在用一个更直观的数值来表示模型预测的不确定性,相当于在多少个选项中均匀选择),以及其意义(更低的困惑度代表更好的模型性能,能更准确地预测人类书写的文本)。讲座还提及,比较困惑度时需注意所使用的对数底(如底数为2或自然对数e)。 3. **模型性能演进**:通过困惑度数值展示了语言模型的发展历程。从传统的N-gram模型(如使用Kneser-Ney平滑,困惑度约67),到早期RNN与其它模型结合(困惑度约51),再到LSTM的应用使得困惑度显著降低(例如降至43或30,相当于交叉熵减少约1比特)。讲座指出,当前最先进的语言模型困惑度已能达到个位数。 4. **RNN的挑战与LSTM的动机**:重点阐述了标准RNN在训练过程中面临的“梯度消失”和“梯度爆炸”问题。这些问题源于在反向传播过程中,损失函数对参数的梯度会随着序列长度的增加而连乘多个雅可比矩阵(在简化情况下,主要是权重矩阵Wh)。如果这些矩阵的范数持续小于1,梯度会趋近于零(梯度消失),导致模型难以学习长距离依赖;如果持续大于1,梯度会指数级增长(梯度爆炸)。这一缺陷是引入LSTM等更复杂RNN结构的主要动机。

自然语言处理 深度学习 循环神经网络 LSTM 语言模型 困惑度 梯度消失 序列到序列模型 神经机器翻译 编码器-解码器模型
已摘要 阅读时间:9 分钟(3048 个字) 2 summary versions