音频媒体文件
Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题,重点涵盖推理工作负载、性能指标(如首个token生成时间TTFT、延迟、吞吐量)、Transformer架构下的计算强度分析、KV缓存优化技术(如GQA、MLA、CLA)、替代架构(如SSM、线性注意力、扩散模型)、量化与剪枝方法,以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。
多模态深度学习:NLP与图像融合前沿
Mixtral 8x7B:稀疏专家混合模型解析
Loubna Ben Allal在斯坦福CS25课程中分享了大语言模型(LLM)预训练背后的细节,以StarCoder为例探讨了训练高质量LLM所需的数据、模型架构与训练策略,并分析了开放与闭源模型的发展趋势及训练中的权衡问题。
当下投资逻辑的挑战与重构
中美科技博弈与AI产业链突围
CIO与董事会关系的演变及合作实践
讲师Ava在讲座中详细介绍了深度序列建模的基本概念和实际应用。她首先通过二维平面上预测小球运动轨迹的例子说明,在处理带有时间依赖的数据时,历史信息对预测结果的重要性。接着,她回顾了前一讲中关于感知机和前馈神经网络的内容,并阐释了如何将这些基础模型扩展到序列数据场景,即通过递归神经网络(RNN)传递和更新隐藏状态,从而捕捉数据的时序关系。讲座还指出了序列数据在语音、文本、医疗信号、金融数据等领域内的广泛存在,为后续探讨更先进的基于注意力机制的序列模型奠定了理论基础。
该转录内容阐述了大型语言模型在预训练后的后训练过程。讲者指出,预训练阶段仅使模型具备下一个令牌预测能力,而后训练则通过监督微调和偏好对齐两步,将基础模型转变为能理解指令、回答问题的实用助手。文中区分了通用微调、领域特定微调和任务特定微调三种方式,并说明了不同方式在数据规模和质量要求上的区别。讲解还涉及了何时采用微调技术,如改变回答语气、注入领域知识、模型蒸馏以及针对特定任务优化,同时强调了持续评估与迭代的重要性。最后,内容还总结了构建高质量数据集的三大要素:准确性、多样性和复杂性。
讲者对语言模型基本原理进行了介绍,指出语言模型本质上类似于智能自动补全系统,采用自回归方式逐词生成文本。他以“这是最好的时代,这是最坏的时代”这一经典例子说明,通过统计训练数据中词语共现概率构建贝叶斯语言模型,可能会因概率循环而导致重复输出,进而解释了所谓的“幻觉”现象。讲者还展示了利用谷歌较早期的Lambda模型实现餐饮推荐聊天机器人的案例,讨论了训练数据中固有模板对生成内容的影响,同时提及了通过角色提示等策略来缓解类似问题。整个讲解过程中,他结合自身在谷歌以及学术界的经验,阐述了从基础语言模型到大规模模型在应用中的相关考虑。