音频媒体文件

Generative AI Interview Prep 2024: LLMs, Transformers [Crash Course for AI/ML Engineers]
2025-05-14 10:18

该音频内容主要介绍了一个面向AI/ML工程师的生成式AI面试速成课程。主讲人讲解了一个时长一小时的短期课程,旨在帮助求职者准备与生成式AI和大型语言模型相关的面试问题。课程计划涵盖七个热门问题,包括生成模型的定义、生成模型与判别模型的区别,以及Transformer架构的细节(如嵌入、位置编码、多头注意力机制、层归一化、残差连接等)。 在具体内容中,主讲人首先定义了生成模型,指出其目标是学习数据的联合概率分布P(X,Y)以模拟数据生成过程,从而能够生成新的数据实例,并常用于无监督学习任务。生成模型的例子包括GPT系列、变分自编码器(VAEs)和生成对抗网络(GANs),可应用于图像生成、合成数据和语音生成等。 随后,内容详细对比了生成模型与判别模型。生成模型关注数据如何生成,学习联合概率P(X,Y);而判别模型仅关注学习条件概率P(Y|X)以区分不同类别,即学习决策边界。主讲人还提及了两种模型在训练焦点、数据用途和具体模型示例(如朴素贝叶斯、隐马尔可夫模型属于生成模型)上的差异。该速成课程被定位为面试准备的起点,并提及了一个更全面的包含100个问题的八小时深度学习面试课程。

生成式AI LLMs Transformer架构 AI/ML面试 生成模型 判别模型 自注意力机制 多头注意力 位置编码 深度学习
已摘要 阅读时间:10 分钟(3291 个字) 2 summary versions
5月13日大摩闭门会加更版:邢自强&Laura谈中美协议及最新市场展望
2025-05-13 23:04

摩根士丹利中国首席经济学家邢自强和首席股票策略师王滢(Laura Wang)在5月13日的内部会议中解读了近期中美就贸易问题达成的联合声明及其市场影响。 邢自强指出,日内瓦联合声明带来的关税缓和程度超出市场预期。此前双方互加的约91个百分点的报复性关税被全面取消,而4月2日美方宣布对华加征的34%关税中,有24个百分点被暂停90天,旨在使中国回到与其他国家相同的10%基础关税水平。计入此前已加征的关税,目前美国对华平均关税水平降至40%左右,与此前预测的年底水平接近,但实现时间远早于预期。他认为,这是“形势比人强”的结果,双方经济均感受到关税战的负面影响。未来,中美将建立常态化经贸磋商机制,从“以牙还牙”转向“可管控的博弈”,关税水平即使有反复,也不太可能回到前期高点。短期内,这对中国第二、三季度经济构成利好,可能出现“抢出口”现象,GDP增速或略有上行。中长期看,全球经济贸易秩序正在重塑,全球投资者对美元资产的过度配置可能面临再平衡,利好中国等市场。然而,中国国内消费、地产等内需依然疲软,刺激政策的加码时点和力度可能因外部压力减弱而有所调整和推后,结构性改革如社保体系完善等仍进展缓慢。 王滢认为,该协议对中国股市构成强烈利好,尽管市场已有所反弹,但仍有进一步上升空间。理由包括:企业盈利预期在经历大幅下调后有望企稳回升;人民币汇率的悲观预期有望修复;中国股市估值在全球处于极低水平(如MSCI中国指数市盈率不足11倍);全球投资者对中国股票的配置仍严重偏低,且增配意愿强烈。她看好大盘互联网、人工智能、高端制造、科技以及消费板块。对于中概股退市和美国投资限制等非关税壁垒,王滢认为短期风险可控,大部分重要中概股已在香港双重上市,香港市场有能力承接,投资限制目前也未有实质性落地措施,投资者应更关注企业基本面。 两位均提及,尽管面临外部科技限制,但中国在AI、人形机器人等前沿科技领域构建全产业链生态的潜力受到国际投资者关注。然而,国内房地产市场的深度调整仍是主要挑战,短期内难有根本性改观。

中美贸易谈判 关税 宏观经济 中国经济 资本市场 股票策略 估值修复 人工智能 高端制造 房地产市场 结构性改革 中概股
已摘要 阅读时间:14 分钟(4556 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 08 Parallelism 2
2025-05-13 17:47

该讲座探讨了利用多GPU和多节点并行来加速模型训练,核心在于克服数据传输瓶颈以最大化GPU利用率。讲座首先回顾了单GPU内的并行技术,并重点转向跨GPU和节点的并行。内容介绍了数据传输的层级结构,从GPU内部的L1缓存、高带宽内存(HBM),到同一节点内GPU间的NVLink,再到跨节点的NVSwitch,指出数据传输速度远慢于计算速度,是主要的性能瓶颈。 讲座的第一部分详细阐述了集体通信操作(Collective Operations),这些是分布式编程的基础构建模块,例如广播(broadcast)、分散(scatter)、收集(gather)、规约(reduce)、全体收集(all-gather)和规约分散(reduce-scatter)。同时解释了相关术语,如“world size”(设备总数)和“rank”(设备编号)。 接着,讲座对比了GPU通信硬件的演进:传统方式通过PCIe总线(节点内)和以太网(节点间)通信,常受CPU开销和带宽限制;而现代NVIDIA系统采用NVLink实现节点内GPU直连,NVSwitch实现跨节点GPU直连,从而绕过CPU和以太网,大幅提升通信带宽和效率,并以H100节点的连接为例进行了说明。讲座后续将具体讨论这些操作在NCCL和PyTorch中的实现及分布式训练策略(如数据并行、张量并行和流水线并行)。

Language Modeling Distributed Training Multi-GPU Training Multi-Node Training Parallel Computing Data Parallelism Tensor Parallelism Pipeline Parallelism Collective Operations GPU Interconnect Data Transfer Bottleneck PyTorch Distributed
已摘要 阅读时间:10 分钟(3434 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 |07 Parallelism 1
2025-05-13 17:44

本次讲座探讨了在训练大规模语言模型时进行多机优化的并行计算问题。由于单个GPU在算力和内存方面均无法满足大型模型的需求,必须采用跨机器并行策略。讲座首先介绍了网络基础,强调了硬件层级结构的重要性:单台机器内的多个GPU通过NVSwitch等高速接口互连,而机器间的通信则依赖相对较慢的网络交换机(如InfiniBand)。这种异构通信特性(节点内快、节点间慢)以及特定规模(如256个GPU)内的高速全互联能力,对并行策略的选择有深远影响。随后,讲座回顾了关键的集体通信操作,如AllReduce、Broadcast、AllGather和ReduceScatter,并特别指出AllReduce操作可以分解为ReduceScatter和AllGather操作,这在带宽受限的情况下能达到最优通信效率。讲座旨在阐释如何结合不同的并行化策略高效训练超大规模模型,并将通过案例分析展示这些策略在实际大规模分布式训练中的应用。

大型语言模型 分布式训练 并行计算 数据并行 模型并行 流水线并行 张量并行 FSDP GPU TPU 集体通信 网络通信
已摘要 阅读时间:11 分钟(3561 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 06 Kernels, Triton
2025-05-13 17:44

该讲座聚焦于为语言模型编写高性能GPU代码。内容首先回顾GPU基础架构,包括流式多处理器(SM)、线程、内存层级(DRAM、缓存、寄存器文件)、线程块和线程束(warps),并强调了算术强度的重要性。讲座重点阐述了基准测试和性能分析在识别与解决代码瓶颈方面的核心作用,主张在优化前进行充分的分析。演讲者计划演示使用CUDA(C++)、Triton以及PyTorch的即时编译器(JIT)编写内核,并对比它们的性能,同时深入分析底层的PTX代码,最终可能实现一个快速的softmax函数。此外,讲座提及了课程作业,特别是与GPU内核和并行计算相关的第二项作业,并将使用一个简单的多层感知机(MLP)模型作为示例进行演示。

GPU编程 语言模型 高性能计算 Triton CUDA PyTorch 性能优化 性能分析 核函数融合 PTX GPU架构 深度学习
已摘要 阅读时间:7 分钟(2174 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 03 Architectures, Hyperparameters
2025-05-13 16:59

该讲座深入探讨了语言模型(LM)架构和训练的细节。演讲者首先回顾了标准的Transformer模型,并指出现代实现(如学生们在作业中构建的)已包含多项改进,例如将LayerNorm置于模块之前、使用旋转位置编码(RoPE)以及SwiGLU激活函数。 核心内容是通过分析大量已发布的语言模型(从2017年的原始Transformer到2025年的最新模型如Llama 3、Qwen 2.5等),总结架构设计的演进趋势和共识。演讲者强调了从他人经验中学习的重要性,并展示了一个电子表格,追踪了不同模型在位置编码、归一化层等方面的选择。一个显著的趋同进化案例是位置编码,从早期的多种方案(绝对、相对、Alibi)到2023年后RoPE成为主流选择。 讲座重点讨论了架构变体中的一个关键共识:预归一化(Pre-Norm)优于后归一化(Post-Norm)。原始Transformer使用后归一化,但几乎所有现代大型语言模型都转向了预归一化,因为它能显著提升训练稳定性,减少损失尖峰,并可能无需学习率预热。演讲者引用了早期研究来支持这一观点,并提及了一个近期可能的新进展,暂称为“双重归一化”(double norm)。 此外,讲座预告了后续将讨论激活函数、前馈网络、注意力变体、位置编码等具体架构组件,以及隐藏层维度、词汇表大小等超参数的选择。

语言模型 Transformer架构 大型语言模型 模型训练 训练稳定性 架构演进 层归一化 RMSNorm 旋转位置编码 SwiGLU 注意力机制 超参数
已摘要 阅读时间:9 分钟(3084 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 04 Mixture of experts
2025-05-13 16:59

该讲座介绍了混合专家(MoE)架构在语言模型中的应用。讲座指出,MoE已成为2025年构建高性能大语言模型(如Grok、DeepSeek、Llama 4)的关键技术,相较于密集模型,能在相似计算资源消耗(FLOPs)下实现更优性能。 MoE的核心思想是将传统Transformer模型中的前馈网络(FFN)替换为多个“专家”(即多个FFN副本)和一个“路由器”。在每次前向传播时,路由器会选择性地激活一小部分专家进行计算,从而在不显著增加实际计算量的前提下,大幅提升模型的总参数量。这种稀疏激活机制使得模型能以相同的训练FLOPs达到更低的训练损失和更好的性能指标(如困惑度)。 讲座强调了MoE的几大优势:1) 以更少的计算激活更多参数,提升模型容量和知识记忆能力;2) 在相同训练FLOPs下性能优于密集模型;3) 提供“专家并行”这一新的模型并行化维度,便于将大模型扩展到多设备上。 尽管MoE在系统实现上存在复杂性,例如专家权重的存储和数据路由,但其带来的性能提升和并行化便利性使其得到广泛应用。讲座还提及,MoE技术早期由Google等闭源实验室研发,中国团队(如Qwen、DeepSeek)在开源MoE的探索和基准测试方面做出了重要贡献,近期西方开源社区也开始积极采纳该架构。讲座后续计划深入探讨DeepSeek V3等具体案例。

大语言模型 混合专家 MoE架构 Transformer模型 稀疏激活 专家并行 模型训练 模型优化 计算效率 DeepSeek V3
已摘要 阅读时间:15 分钟(4973 个字) 3 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 05 GPUs
2025-05-13 16:31

演讲者首先介绍了课程作业的安排,并点明本次讲座的核心内容是图形处理器(GPU)。GPU对语言模型的运行至关重要,讲座旨在揭开CUDA和GPU的神秘面纱,帮助理解其工作原理及性能波动的原因,例如为何在特定矩阵乘法规模下GPU会变慢。学习目标包括让听众熟悉GPU,并能够利用CUDA等工具加速算法,例如理解FlashAttention这类高效算法的构建基础。演讲者提及了硬件发展的重要性,指出深度学习的进步得益于更快的硬件、更优的利用率和并行化。接着,演讲回顾了计算能力扩展的历史,从早期依赖登纳德缩放定律(Dennard scaling)提升CPU单核性能,到该趋势饱和后,转向并行计算的必要性,这也是GPU发展的关键。演讲者对比了CPU和GPU的设计理念:CPU侧重于低延迟,拥有复杂的控制单元以快速完成单个任务;而GPU则侧重于高吞吐量,通过大量并行计算单元(如ALU)同时处理多个任务,即使单个任务延迟可能更高,但总体处理效率更高。最后,演讲者初步介绍了GPU的内部结构,核心概念是流式多处理器(SM),每个SM包含多个流处理器(SP),SM负责控制逻辑和任务分发,而SP则对不同数据执行相同的指令,实现大规模并行计算。

GPU 语言模型 高性能计算 CUDA 内存瓶颈 并行计算 性能优化 FlashAttention 分块 重计算 矩阵乘法 硬件加速
已摘要 阅读时间:11 分钟(3809 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 02 Pytorch, Resource Accounting
2025-05-13 16:30

该讲座介绍了使用PyTorch从头构建语言模型的过程,并重点关注了模型训练中的资源效率问题,特别是内存和计算资源的使用。讲座通过示例计算(如训练大型模型的耗时、特定硬件可训练的最大模型参数量)强调了进行资源估算(“餐巾纸数学”)的重要性,以便有效控制成本。讲座内容不涉及Transformer架构的具体细节,而是聚焦于PyTorch的基本构件和资源核算方法,旨在培养学员的效率意识和实践能力。 在内存核算方面,讲座详细讨论了张量(Tensor)作为存储参数、梯度、优化器状态等数据的基本单元,及其不同浮点数表示对内存占用的影响。具体对比了`float32`(单精度,默认,4字节)、`float16`(半精度,2字节,动态范围受限,可能导致训练不稳定)、`bfloat16`(脑浮点数,2字节,具有类似`float32`的动态范围但精度较低,适合深度学习计算)以及`fp8`(8位浮点数,更小,适用于H100等新硬件以追求极致优化)等数据类型。讲座建议在计算中使用`bfloat16`以平衡效率和稳定性,而参数和优化器状态的存储仍推荐使用`float32`以保证训练稳定性。

语言模型 PyTorch 资源核算 内存核算 计算核算 浮点精度 BF16 FLOPs 矩阵乘法 混合精度训练 优化器状态 模型规模
已摘要 阅读时间:11 分钟(3692 个字) 2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程,包括数据、系统与建模。该课程的讲座将发布于YouTube。 主讲人Percy认为,当前研究者与底层技术日益脱节,许多人仅依赖调用大型专有模型接口。他强调,尽管便捷,但这些抽象是“泄露的”,真正的基础研究仍需深入理解技术栈的各个层面。因此,课程的核心理念是“要理解它,就必须构建它”。 鉴于前沿模型(如GPT-4)规模庞大、成本高昂且技术细节不公开,学生将专注于构建小型语言模型。Percy承认,小型模型可能无法完全复现大规模模型的某些特性(如不同模块的计算占比变化、特定能力的涌现)。 尽管如此,课程仍能传授三个层面的知识:1) 模型运行的“机制”(如Transformer架构、并行计算);2) “思维模式”(如追求硬件极限性能、严肃对待规模化问题,这被认为是OpenAI成功的关键);3) 关于数据与模型选择的“直觉”(但这部分受规模效应影响,只能部分传授,因为小规模有效的策略未必适用于大规模)。 Percy还对“惨痛的教训”进行了解读,指出并非“规模决定一切”,而是“规模化的有效算法”至关重要。他强调,效率(尤其是算法效率,其进步已超越摩尔定律)在大规模训练中更为关键。 课程旨在引导学生思考的核心问题是:在给定的计算和数据预算下,如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算 规模法则 模型训练 模型对齐 数据处理 GPU优化
已摘要 阅读时间:15 分钟(4925 个字) 2 summary versions