Detailed Summary 摘要

生成：2025-06-15 22:02

摘要详情

音频文件: 2025-06-14 | Stanford CS25: V5 I Multimodal World Models for Drug Discovery, Eshed Margalit of Noetik.ai
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
温度: 0.3
创建时间: 2025-06-15 22:02:13

摘要内容

斯坦福 CS25：多模态世界模型在癌症药物发现中的应用

描述: Noetik.ai的机器学习科学家Eshed Margalit在斯坦福大学CS25课程中，深入探讨了如何利用大型多模态世界模型进行癌症药物发现。演讲涵盖了多模态学习的核心理念、关键技术、Noetik.ai在收集和处理癌症生物学数据（如H&E图像、蛋白质免疫荧光、空间转录组学及基因测序）方面的实践、Transformer模型架构（如掩码自编码器和自适应LayerNorm）的应用，以及通过虚拟细胞模拟和反事实分析进行药物靶点识别与效果预测的最新进展。

概览/核心摘要 (Executive Summary)

Eshed Margalit (Noetik.ai 机器学习科学家) 在斯坦福大学CS25的演讲中，详细阐述了利用多模态世界模型进行癌症药物发现的前沿方法。核心观点认为，尽管机器学习（特别是Transformer模型）和癌症生物学测量技术取得了巨大进步，但在为特定患者亚群确定合适的生物靶点方面仍存在挑战。Noetik.ai正通过构建“患者生物学的大型多模态世界模型”来应对此问题。该方法依赖两大核心：1) 收集跨越多种尺度和模态的大型数据集（包括H&E图像、16-plex蛋白质免疫荧光、空间转录组学和全外显子基因测序数据）；2) 训练多模态Transformer模型，使其能够融合这些数据流，以进行精细的生物学过程模拟。

Eshed Margalit介绍了多种多模态学习的技术方法，如学习联合嵌入空间、直接拼接原始输入、交叉注意力、Token拼接以及Noetik.ai在其工作中越来越多采用的自适应LayerNorm (AdaLN)。在癌症研究中，Noetik.ai利用这些技术处理来自数千名患者（已超过10,000例）的1mm肿瘤核心数据。他们开发的模型（如内部代号Octo）能够通过掩码自编码器学习单细胞基因表达，并整合空间邻域信息（可来自基因表达数据或H&E图像）以提高预测准确性和进行反事实模拟（例如，模拟药物对肿瘤微环境的影响）。一项关键进展是实现了从易于获取的H&E图像推断复杂的空间转录组学数据，为大规模患者数据分析和药物反应预测提供了新途径。演讲强调了在多模态机器学习，特别是在生物学应用中，仍有大量创新工作可做，并展示了Noetik.ai在癌症免疫治疗药物发现方面的实际进展。

讲者背景与演讲目标

讲者介绍 (Speaker 1 & 2):
- Eshed Margalit 是一位神经科学家和机器学习研究员，致力于用AI理解生物系统。
- 他在斯坦福大学获得神经科学博士学位，研究方向为构建具有生物学启发约束的自监督神经网络，以解释灵长类视觉皮层的结构、功能和发展。
- 目前是 Noetik.ai 的机器学习科学家，这是一家专注于癌症治疗的AI原生生物技术初创公司。
- 他的工作涉及开发新颖的Transformer模型架构和任务，从患者肿瘤生物学的大型多模态数据集中学习，并将这些模型应用于药物发现。
- Eshed Margalit 自述其背景是计算神经科学，特别是视觉皮层，对癌症免疫学领域相对较新。
- 演讲开始时，Eshed Margalit 感谢并展示了其在Noetik.ai的机器学习研究团队成员，并强调分享的成果是团队共同努力的结果。
演讲核心目标 (Speaker 2):
1. 展示多模态机器学习（尤其是Transformer）中令人兴奋和富有创造性的工作。
2. 论证癌症生物学是进行此类基础机器学习研究的绝佳领域，其生成的数据独特性高。
3. （额外目标）展示Noetik.ai在癌症药物发现方面取得的进展。
对听众的假设 (Speaker 2):
- 对Transformer研究感兴趣，可能包括新颖的Transformer架构。
- 好奇Transformer在学术环境之外的实际应用，特别是在临床实用场景中的应用。
- 熟悉机器学习和Transformer的基础知识，但不必是专家。
- 对癌症免疫学没有预先了解。

多模态模型的基本理念

世界模型 (World Models) (Speaker 2):
- AI的一个统一目标是构建世界模型，即一个能够基于对当前世界状态的观察来模拟世界未来状态的系统，并且能够模拟系统自身行为对未来的影响。
- 这包括：现实 -> 传感器收集信息 -> 世界模型感知 -> 模拟行动后果。
世界的多模态感知 (Speaker 2):
- 人类（及我们头脑中的世界模型）以多模态方式感知世界。例如，通过视觉、听觉、文本（如视频字幕）等。
- Eshed Margalit认为，最好的世界模型将能够整合所有这些模态，并以富有成效的方式基于所有模态（而不仅仅是其中之一）做出决策。
多模态学习的任务 (Speaker 2):
- 学习如何整合不同格式的多种信息流，以最准确地模拟世界将发生什么。
多模态融合的两个主要原因 (Speaker 2):
1. 翻译 (Translation): 捕捉一种模态中的所有信息并将其反映到另一种模态中。例如，文本到图像生成系统，希望文本提示中的所有信息都能在生成的图像中体现。
2. 消歧 (Disambiguation): 获取仅在特定模态中可用的信息，以消除歧义，获得对世界状态的完整理解。例如，看到人们跑出大楼（视觉），结合火警警报声（听觉）或免费波霸奶茶的通知（听觉），可以明确具体情况。

多模态信息融合的技术方法回顾

Speaker 2 概述了文献中几种融合多模态信息流的方法，并提及了“早期融合”与“晚期融合”的概念，尽管他个人认为此框架对他启发不大。

学习联合嵌入空间 (Learning Joint Embedding Spaces):
- 代表模型: CLIP (图像与文本), ImageBind (图像作为锚点，与其他多种模态如文本、深度图、音频进行对比学习)。
- 核心思想: 通过对比学习，将不同模态的数据编码到同一个共享的嵌入空间。目标是使对应模态对的嵌入尽可能相似，不匹配的则尽可能远离。
- 融合阶段: Eshed Margalit 认为这属于“相对晚期融合”，因为各模态的编码器在很大程度上是独立学习的，仅通过损失函数施加压力使其嵌入相似。
直接拼接原始输入 (Direct Concatenation of Raw Inputs):
- 例子: 将3D RGB彩色图像与深度图像拼接为4通道输入，然后训练CNN或Vision Transformer。
- 特点: “超级早期融合”。
- 局限性: 要求输入具有可拼接的维度（如图像的高度和宽度对齐），因此不常用。通常会先将原始输入投影到Token，再拼接Token流。
交叉注意力 (Cross-Attention):
- 例子: Luit et al. 2019 的工作，图像Token流和文本Token流通过交叉注意力层交互。
- 核心思想: 一个模态的Token流生成注意力操作中的查询（Queries），而另一个模态的Token流提供键（Keys）和值（Values）。由于操作不对称，通常会双向设置。
- 实现细节: 输入X生成Q，另一流Y生成K和V。
- 融合阶段: “中间融合”，取决于交叉注意力层在网络中的位置。
Token拼接 (Token Concatenation):
- 核心思想: Transformer架构下“一切皆Token”。将来自不同模态的数据转换为Token序列后，可以直接拼接这些序列。
- 例子:
  - Vision Transformer (ViT) 中预置的类别Token（可视为文本标签的嵌入）。
  - DALL-E 1 实现：文本Token后拼接图像Token（来自dVAE的离散码本），解码器无需区分Token来源。
自适应LayerNorm (Adaptive LayerNorm / AdaLN):
- 代表模型: Diffusion Transformer (DiT)。
- 核心思想: 将条件信息（如文本标签）通过一个（通常是线性的）层投影成小的标量参数（如alpha, beta, gamma），这些参数用于调整主处理流中LayerNorm操作的缩放和平移。
- 优点: 参数高效，且效果良好。
- Noetik.ai应用: 在其工作中越来越多地使用此方法，因其参数高效且有效。

Noetik.ai 在癌症研究中的多模态世界模型

目标类比 (Speaker 2): 将宏观世界的“世界模型”概念应用于微观的癌症生物学世界，旨在回答诸如“如果我给这个病人用这个药会发生什么？”这类临床问题。
癌症免疫治疗简介 (Speaker 2):
- 免疫系统有时能检测并摧毁癌症。
- 肿瘤会进化以逃避免疫系统或抑制免疫系统。
- 免疫治疗旨在消除这些逃逸/抑制机制，重新激活免疫细胞。
- Noetik.ai 的目标：1) 发现新药；2) 将现有药物更精准地匹配给合适的患者亚群。
Noetik.ai 的数据收集与处理 (Speaker 2):
- 数据来源: 人类肺肿瘤样本（及其他器官肿瘤），目前已处理超过10,000个直径约1mm的组织核心。
- 多模态数据类型:
  1. H&E (苏木精-伊红染色) 图像: 相对便宜、易获取，提供形态学信息，类似于3通道RGB图像（技术上是2通道，可解耦）。
  2. 16-plex 蛋白质免疫荧光 (Protein Immunofluorescence): 检测16种不同蛋白质，通过荧光抗体标记，提供组织成分信息（如T细胞、B细胞、肿瘤细胞）。数据与H&E空间对齐，可视为16通道图像。
  3. 空间转录组学 (Spatial Transcriptomics): 使用Cosmic平台，进行1000-plex（后续提到正向18,000基因全转录组发展）的RNA转录本检测，数据点包含基因身份和空间位置(x, y, z，但z轴很薄，近似x,y)。每个1mm样本可产生数千至数百万转录本。
    - Noetik.ai估计其拥有全球超过1%，甚至可能超过2%的基于Cosmic平台的空间转录组学数据。
  4. 基因测序 (Genetic Sequencing): 全外显子组测序，了解患者可能与肿瘤生物学相关的基因突变。
模型架构与训练任务 (Speaker 2):
- 核心模型: 基于Transformer主干的掩码自编码器 (Masked Autoencoders)，非自回归。
- 输入: 单细胞的基因表达谱（行为基因，值为表达量，数据高度稀疏）。
- Tokenization: 为每一个“基因身份”（gene identity）与对应的“表达水平”（expression level）的组合分配一个独立的Token，从而同时编码基因的种类及其表达丰度。
- 任务: 积极掩码 (Masking) – 通常超过90%的Token被移除并替换为学习到的掩码Token，模型任务是预测被掩码的Token。
  - 目标是迫使模型学习深层生物学规律，使其任务尽可能困难但仍能学习生物学知识。
- 多模态融合 - 空间上下文:
  - 输入增强: 考虑目标细胞的8个最近邻细胞的基因表达信息。
  - 信息瓶颈: 将邻域细胞的表达信息通过另一个Transformer压缩成一个单一Token。
  - 融合方式: 主要使用自适应LayerNorm (AdaLN) 将此邻域Token信息融入主干模型的处理流程（也尝试过Token拼接和交叉注意力，AdaLN更高效）。
  - 效果: 显著降低主干模型的训练损失，帮助模型在模糊情况下做出更准确预测。
模型应用与模拟 (Speaker 2):
- 大规模推理与虚拟细胞模拟 ("Teleporter"):
  - 在真实患者样本的特定位置，给定一个“提示”（如假设中心细胞是杀伤性T细胞），模型结合周围真实空间上下文预测其他990+基因的表达。
  - 截至演讲前一周，已进行约60亿次此类虚拟细胞模拟。
  - 开发了Web UI (teleporter.noetik.ai) 供内部探索。
- 反事实模拟 (Counterfactual Simulations) - 药物效果预测:
  - 创建合成邻域: 例如，在真实邻域数据基础上，模拟药物作用（如敲低某个目标基因的表达）。
  - 观察对中心假设细胞（如T细胞）的影响，例如预测其肿瘤杀伤相关基因（如Granzyme K）表达量的变化。
- 从H&E图像到空间转录组学的翻译 (模型Octo的应用之一):
  - 动机: H&E数据易得，空间转录组学数据昂贵稀有。
  - 方法: 将H&E图像的局部形态学信息（而非邻域基因表达）作为空间上下文输入到AdaLN，训练模型（Octo）预测中心区域的基因表达。训练数据为成对的H&E和空间转录组学数据。
  - 推理: 输入H&E图像，完全掩码基因表达输入（即不提供真实基因表达），模型仅根据H&E形态学预测完整的1000基因表达谱。
  - 成果: 模型能有效预测肿瘤标记物在H&E图像上的空间分布，并能基于预测的基因表达谱聚类患者，这些聚类与患者的实际基因突变状态（模型对此不知情）相关。
- 蛋白质图像预测模型:
  - 任务: 预测蛋白质图像（16通道）。
  - 输入: 将其他三种模态（H&E、空间转录组学、基因数据）作为额外Token拼接到主Token流中，与蛋白质图像的Token流交互。
  - 模拟: 通过修改输入的空间转录组学数据（模拟药物抑制某基因）来观察模型预测的蛋白质免疫原性标记物的变化，评估药物潜力。
- 未来方向 - 直接处理原始转录本点云:
  - 不再将RNA检测分配到细胞，而是直接处理原始的数百万转录本点云数据。
  - 训练模型在原始点云的局部空间上下文中进行预测。
  - 目标是摆脱将细胞视为生物学模拟原子单位的需求，尽可能接近原始数据进行模拟。
- 可解释性研究:
  - 使用稀疏自编码器等方法从模型中提取一致的生物学主题。
  - 构建界面，使生物学家能够利用这些主题进行例如基于文本标签的H&E图像自动语义分割，从H&E图像直接得到带有生物学意义的区域划分。

问答环节要点 (Speaker 2, 3, 4)

Transformer在癌症研究中的重要性:
- 易于扩展，经验上伸缩性好。
- 适用于非图像类数据（如基因表达谱，其结构类似文本）。
- Token化机制使其极易于进行多模态融合和整合任意来源的信息。
数据量与泛化:
- 目前约8000名患者数据，对于单一癌症类型（如非小细胞肺癌）可能已覆盖大部分生物学多样性，但仍在积极收集更多癌种和器官的数据以确保不遗漏肿瘤逃逸机制。
- 合成数据增强是可能的，但其对模型学习真实生物学的帮助尚不明确。
数据隐私 (HIPAA):
- 可通过开源方法、提供安全数据处理端点服务（作为服务处理数据并确保合规）、或与医院/研究机构建立正式合作伙伴关系来解决。
与AlphaFold等现有模型的结合:
- Noetik的工作可能处于药物发现流程的上游（如识别靶点和模拟细胞层面效应），之后可结合AlphaFold等分子层面模型进行药物设计。跨不同生物尺度的整合是一个重要挑战。
健康人数据的缺乏:
- 目前主要处理患者数据，因为健康人群通常不进行此类侵入性组织取样。这导致缺乏免疫系统正常运作和成功清除早期癌变的数据，是理解疾病和进行预防的一大局限。
Noetik.ai的商业模式:
- Noetik.ai致力于成为“全栈式”公司：内部进行数据生成、机器学习模型研发、生物学研究，并拥有体内(in vivo)小鼠模型平台进行假设验证。
- 目前不作为服务对外提供模型API，而是将模型和平台内部用于药物发现、理解临床试验失败原因及优化患者分层。
模型与临床试验:
- 短期内无法完全取代临床试验，人类的安全性和有效性验证仍是必需的。
- 模型可以使药物发现的早期漏斗（筛选过程）更高效，或帮助识别对特定药物反应良好的患者亚群，从而优化临床试验设计，提高成功率。
模拟实验的优先级:
- 目前主要依赖领域专家（生物学家、免疫学家）基于其专业知识提出有价值的模拟方向和假设。
- 对大型语言模型（LLM）或AI智能体未来能自主设计有意义的实验持乐观态度，但目前在复杂生物学问题上，AI提出的实验尚未超越人类专家。
癌症预防:
- 受限于健康数据的缺乏。未来若H&E等检测手段普及且廉价，模型或能从看似健康的样本中发现早期风险信号，但目前主要关注已确诊患者。
AI驱动的自主科学发现:
- 对AI智能体在科学发现中的潜力持乐观态度，认为未来AI系统会越来越好。但目前，尤其是在需要深厚领域知识的实验设计方面，人类科学家的洞察力仍不可或缺。

总结性评论 (Speaker 1)

主持人强调了本次演讲与近期更多关注LLM的讲座有所不同，突出了其在特定应用领域的重要性。
指出机器学习和AI在癌症研究及整个医疗健康领域具有巨大潜力，能够产生积极影响、拯救生命，鼓励在该领域进行更多研究。

核心结论

Eshed Margalit代表Noetik.ai展示了其利用大型多模态世界模型进行癌症药物发现的创新方法。通过整合来自患者肿瘤的多种数据流（H&E图像、蛋白质组学、空间转录组学、基因组学），并利用先进的Transformer架构（特别是掩码自编码器和自适应LayerNorm），Noetik.ai旨在构建能够精确模拟患者生物学对药物反应的计算模型。这不仅有助于发现新药，还能更精准地将现有药物匹配给合适的患者，从而提高治疗效果。尽管面临数据获取、模型泛化和临床转化等挑战，但多模态机器学习为理解复杂疾病（如癌症）和加速药物研发开辟了充满希望的新途径。

评审反馈

总体评价

该总结质量非常高，准确、全面地再现了演讲的核心内容、技术细节、讲者观点及问答环节的要点，结构清晰，语言专业。

具体问题及建议

事实准确性/信息来源: 总结的标题和描述中包含日期信息 "2025-06-14" 和 "May 20, 2025"。
- 具体问题描述：提供的“转录文本”本身是演讲的实时记录，并未包含这些具体的演讲日期信息。这些日期信息似乎来源于用户输入中“当前总结”的元数据。
- 修改建议：虽然这不是总结内容本身的错误（它准确反映了“当前总结”的给定信息），但在严格对照“转录文本”的审核中，可以考虑在评审附注中说明此日期信息并非直接从转录文本中提取，或在实际应用中确保此类元数据与正文内容分开管理和验证。对于总结本身，如果目标是纯粹基于转录文本，则不应包含这些日期。
完整性 (细微遗漏): 讲者在介绍其团队时提到 "I should call out the other people that I work with at noetic... these are their names and faces."
- 具体问题描述：总结中未提及讲者展示了团队成员的名字和照片这一细节。
- 修改建议：虽然这不影响核心技术内容的理解，但可以在“讲者背景与演讲目标”部分，在提及Noetik.ai团队时，可以补充一句，如“讲者在演讲开始时感谢并展示了其Noetik.ai的机器学习研究团队成员。” 这样能更完整地反映演讲的开场情况。但这属于非常次要的补充。
语言表达 (细微优化): 在“Noetik.ai 在癌症研究中的多模态世界模型” -> “模型架构与训练任务” -> “Tokenization” 部分。
- 具体问题描述：总结为“将‘基因身份+表达水平’组合编码为一个Token。” 转录文本中描述为 "a tokenization process that assigns a token to each combination of gene identity and the expression level. So you're encoding both how much of that thing you have and also what the identity of it is."
- 修改建议：总结是准确的。如果追求更细致的表达，可以微调为“为每个‘基因身份’及其‘表达水平’的组合分配一个Token，从而同时编码了基因的种类及其表达量。” 当前的表达已足够清晰。

优化方向

保持高度的细节和准确性：当前总结在细节捕捉（如具体数字、模型名称、技术方法）方面做得非常好，应继续保持。
信息来源区分：对于元数据（如日期、事件版本号等）和从转录文本中直接提取的内容，在内部流程中建议进行区分。如果总结的目标是纯粹基于转录文本，则应避免引入外部元数据。
可读性与重点突出：虽然当前结构已经很好，但可以考虑在每个主要技术方法或模型应用后，用一句话概括其核心优势或在Noetik.ai应用中的关键作用，进一步强化信息层级，但这更多是锦上添花。

返回音频媒体