音频媒体文件
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference
2025-05-21 10:12Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题,重点涵盖推理工作负载、性能指标(如首个token生成时间TTFT、延迟、吞吐量)、Transformer架构下的计算强度分析、KV缓存优化技术(如GQA、MLA、CLA)、替代架构(如SSM、线性注意力、扩散模型)、量化与剪枝方法,以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。
2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
2025-05-20 23:43多模态深度学习:NLP与图像融合前沿
2024-05-01 | Stanford CS25 V4 I Demystifying Mixtral of Experts
2025-05-20 13:31Mixtral 8x7B:稀疏专家混合模型解析
2025-05-23 | Stanford CS25 V4 I Behind the Scenes of LLM Pre-training: StarCoder Use Case
2025-05-20 13:14Loubna Ben Allal在斯坦福CS25课程中分享了大语言模型(LLM)预训练背后的细节,以StarCoder为例探讨了训练高质量LLM所需的数据、模型架构与训练策略,并分析了开放与闭源模型的发展趋势及训练中的权衡问题。
2025-05-18 | 华创证券 张瑜团队 | 当下投资方式的否定与认定
2025-05-20 11:48当下投资逻辑的挑战与重构
2025-05-19 | 大摩宏观团队周度闭门会 | 邢自强
2025-05-20 11:42中美科技博弈与AI产业链突围
2025-04-29 | WSJ Techfluential by Deloitte | Demystifying the CIO and Board Relationship
2025-05-20 10:04CIO与董事会关系的演变及合作实践
2025 MIT | MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention
2025-05-18 16:28讲师Ava在讲座中详细介绍了深度序列建模的基本概念和实际应用。她首先通过二维平面上预测小球运动轨迹的例子说明,在处理带有时间依赖的数据时,历史信息对预测结果的重要性。接着,她回顾了前一讲中关于感知机和前馈神经网络的内容,并阐释了如何将这些基础模型扩展到序列数据场景,即通过递归神经网络(RNN)传递和更新隐藏状态,从而捕捉数据的时序关系。讲座还指出了序列数据在语音、文本、医疗信号、金融数据等领域内的广泛存在,为后续探讨更先进的基于注意力机制的序列模型奠定了理论基础。
MIT | Liquid AI | Introduction to LLM Post-Training
2025-05-18 16:19该转录内容阐述了大型语言模型在预训练后的后训练过程。讲者指出,预训练阶段仅使模型具备下一个令牌预测能力,而后训练则通过监督微调和偏好对齐两步,将基础模型转变为能理解指令、回答问题的实用助手。文中区分了通用微调、领域特定微调和任务特定微调三种方式,并说明了不同方式在数据规模和质量要求上的区别。讲解还涉及了何时采用微调技术,如改变回答语气、注入领域知识、模型蒸馏以及针对特定任务优化,同时强调了持续评估与迭代的重要性。最后,内容还总结了构建高质量数据集的三大要素:准确性、多样性和复杂性。
Google | Peter Grabowski | Introduction to Language Modeling
2025-05-18 16:18讲者对语言模型基本原理进行了介绍,指出语言模型本质上类似于智能自动补全系统,采用自回归方式逐词生成文本。他以“这是最好的时代,这是最坏的时代”这一经典例子说明,通过统计训练数据中词语共现概率构建贝叶斯语言模型,可能会因概率循环而导致重复输出,进而解释了所谓的“幻觉”现象。讲者还展示了利用谷歌较早期的Lambda模型实现餐饮推荐聊天机器人的案例,讨论了训练数据中固有模板对生成内容的影响,同时提及了通过角色提示等策略来缓解类似问题。整个讲解过程中,他结合自身在谷歌以及学术界的经验,阐述了从基础语言模型到大规模模型在应用中的相关考虑。