音频媒体文件

2025-05-22 | WSJ | Eggs Are Still Expensive. Is This Company to Blame?
2025-05-23 09:43

鸡蛋价格居高不下谁之过?

鸡蛋生产 禽流感 鸡蛋价格上涨 市场供需 Cal-Maine 价格欺诈指控 司法调查 农产品市场 企业利润
已摘要 阅读时间:7 分钟(2131 个字) 1 summary version
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Inference
2025-05-21 10:12

Stanford CS336 2025春季课程第十讲讨论了语言模型推理的效率问题,重点涵盖推理工作负载、性能指标(如首个token生成时间TTFT、延迟、吞吐量)、Transformer架构下的计算强度分析、KV缓存优化技术(如GQA、MLA、CLA)、替代架构(如SSM、线性注意力、扩散模型)、量化与剪枝方法,以及推测采样和动态批处理等系统级优化策略。核心目标是在不牺牲准确性的前提下提升推理速度与资源利用率。

大语言模型 推理效率 Transformer模型 KV缓存优化 内存受限 模型量化 模型剪枝 推测采样 PagedAttention 替代架构 动态工作负载 计算强度
已摘要 阅读时间:9 分钟(2905 个字) 3 summary versions
2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
2025-05-20 23:43

多模态深度学习:NLP与图像融合前沿

多模态深度学习 自然语言处理 计算机视觉 人工智能 Transformer 对比学习 CLIP模型 基础模型 模型评估 多模态融合
已摘要 阅读时间:13 分钟(4213 个字) 1 summary version
2024-05-01 | Stanford CS25 V4 I Demystifying Mixtral of Experts
2025-05-20 13:31

Mixtral 8x7B:稀疏专家混合模型解析

人工智能 大语言模型 稀疏混合专家 Mixtral 8x7B 模型架构 推理效率 参数效率 模型可解释性 知识密集型任务 路由机制 开源模型
已摘要 阅读时间:12 分钟(3862 个字) 2 summary versions
2025-05-23 | Stanford CS25 V4 I Behind the Scenes of LLM Pre-training: StarCoder Use Case
2025-05-20 13:14

Loubna Ben Allal在斯坦福CS25课程中分享了大语言模型(LLM)预训练背后的细节,以StarCoder为例探讨了训练高质量LLM所需的数据、模型架构与训练策略,并分析了开放与闭源模型的发展趋势及训练中的权衡问题。

大语言模型 (LLM) LLM预训练 StarCoder 数据质量 开源LLM 规模法则 (Scaling Laws) 合成数据 数据筛选与处理 代码大语言模型 模型评估与基准 负责任AI开发 人工智能 (AI)
已摘要 阅读时间:14 分钟(4696 个字) 3 summary versions
2025-05-18 | 华创证券 张瑜团队 | 当下投资方式的否定与认定
2025-05-20 11:48

当下投资逻辑的挑战与重构

投资研判 宏观经济分析 中美贸易摩擦 关税影响 出口分析 美国通胀 全球需求 供应链风险 市场波动性 上市公司财报分析 转岗率
已摘要 阅读时间:16 分钟(5303 个字) 1 summary version
2025-05-19 | 大摩宏观团队周度闭门会 | 邢自强
2025-05-20 11:42

中美科技博弈与AI产业链突围

人工智能 AI产业链 中美科技博弈 AI芯片 国产化替代 宏观经济 AI应用 技术创新 大模型 地缘政治 新质生产力
已摘要 阅读时间:12 分钟(3901 个字) 1 summary version
2025-04-29 | WSJ Techfluential by Deloitte | Demystifying the CIO and Board Relationship
2025-05-20 10:04

CIO与董事会关系的演变及合作实践

CIO与董事会 技术领导力 企业技术治理 业务价值沟通 数字化转型 技术战略 CISO与董事会 高管影响力 董事会技术委员会 技术风险管理 继任者规划 保险科技
已摘要 阅读时间:11 分钟(3750 个字) 2 summary versions
2025 MIT | MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention
2025-05-18 16:28

讲师Ava在讲座中详细介绍了深度序列建模的基本概念和实际应用。她首先通过二维平面上预测小球运动轨迹的例子说明,在处理带有时间依赖的数据时,历史信息对预测结果的重要性。接着,她回顾了前一讲中关于感知机和前馈神经网络的内容,并阐释了如何将这些基础模型扩展到序列数据场景,即通过递归神经网络(RNN)传递和更新隐藏状态,从而捕捉数据的时序关系。讲座还指出了序列数据在语音、文本、医疗信号、金融数据等领域内的广泛存在,为后续探讨更先进的基于注意力机制的序列模型奠定了理论基础。

深度序列建模 循环神经网络 (RNN) 自注意力机制 Transformer 模型 大型语言模型 (LLMs) 自然语言处理 (NLP) 梯度问题 长期依赖 深度学习 MIT 6.S191
已摘要 阅读时间:9 分钟(3079 个字) 2 summary versions
MIT | Liquid AI | Introduction to LLM Post-Training
2025-05-18 16:19

该转录内容阐述了大型语言模型在预训练后的后训练过程。讲者指出,预训练阶段仅使模型具备下一个令牌预测能力,而后训练则通过监督微调和偏好对齐两步,将基础模型转变为能理解指令、回答问题的实用助手。文中区分了通用微调、领域特定微调和任务特定微调三种方式,并说明了不同方式在数据规模和质量要求上的区别。讲解还涉及了何时采用微调技术,如改变回答语气、注入领域知识、模型蒸馏以及针对特定任务优化,同时强调了持续评估与迭代的重要性。最后,内容还总结了构建高质量数据集的三大要素:准确性、多样性和复杂性。

LLM 后训练 监督微调 偏好对齐 大语言模型 模型微调 数据质量 模型合并 模型评估 测试时计算扩展 人工智能 参数高效微调
已摘要 阅读时间:16 分钟(5408 个字) 2 summary versions