详细摘要 摘要

生成:2025-06-15 21:59

摘要详情

音频文件
2025-06-14 | Stanford CS25: V5 I Multimodal World Models for Drug Discovery, Eshed Margalit of Noetik.ai
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-preview-06-05
温度
0.3
已创建
2025-06-15 21:59:02

概览/核心摘要 (Executive Summary)

Eshed Margalit (ML科学家, Noetik.ai) 在斯坦福CS25的演讲中,详细阐述了利用多模态世界模型进行癌症药物发现的前沿方法。核心观点认为,尽管机器学习(特别是Transformer模型)和癌症生物学测量技术取得了巨大进步,但在确定特定患者亚群的生物靶点方面仍存在挑战。Noetik.ai正通过构建“患者生物学的大型多模态世界模型”来应对此问题。该方法依赖两大核心:1) 收集跨越多种尺度和模态的大型数据集(包括H&E图像、16-plex蛋白质免疫荧光、空间转录组学和基因测序数据);2) 训练多模态Transformer模型,使其能够融合这些数据流,以进行精细的生物学过程模拟。

Eshed Margalit介绍了多种多模态学习的技术方法,如学习联合嵌入空间、直接拼接原始输入、交叉注意力、Token拼接以及Noetik.ai偏爱的自适应LayerNorm (AdaLN)。在癌症研究中,Noetik.ai利用这些技术处理来自数千名患者的1mm肿瘤核心数据。他们开发的模型(如内部代号Octo)能够通过掩码自编码器学习单细胞基因表达,并整合空间邻域信息(来自基因表达或H&E图像)以提高预测准确性和进行反事实模拟(例如,模拟药物对肿瘤微环境的影响)。一项关键进展是实现了从易于获取的H&E图像推断复杂的空间转录组学数据,为大规模患者数据分析和药物反应预测提供了新途径。演讲强调了在多模态机器学习,特别是在生物学应用中,仍有大量创新工作可做,并展示了Noetik.ai在癌症免疫治疗药物发现方面的实际进展。

讲者背景与演讲目标

  • 讲者介绍 (Speaker 1 & 2):
    • Eshed Margalit 是一位神经科学家和机器学习研究员,致力于用AI理解生物系统。
    • 他在斯坦福大学获得神经科学博士学位,研究方向为构建具有生物学启发约束的自监督神经网络,以解释灵长类视觉皮层的结构、功能和发展。
    • 目前是 Noetik.ai 的机器学习科学家,这是一家专注于癌症治疗的AI原生生物技术初创公司。
    • 他的工作涉及开发新颖的Transformer模型架构和任务,从患者肿瘤生物学的大型多模态数据集中学习,并将这些模型应用于药物发现。
    • Eshed Margalit 自述其背景是计算神经科学,特别是视觉皮层,对癌症免疫学领域相对较新。
  • 演讲核心目标 (Speaker 2):
    1. 展示多模态机器学习(尤其是Transformer)中令人兴奋和富有创造性的工作。
    2. 论证癌症生物学是进行此类基础机器学习研究的绝佳领域,其生成的数据独特性高。
    3. (额外目标)展示Noetik.ai在癌症药物发现方面取得的进展。
  • 对听众的假设 (Speaker 2):
    • 对Transformer研究感兴趣,可能包括新颖的Transformer架构。
    • 好奇Transformer在学术环境之外的实际应用,特别是在临床实用场景中的应用。
    • 熟悉机器学习和Transformer的基础知识,但不必是专家。
    • 对癌症免疫学没有预先了解。

多模态模型的基本理念

  • 世界模型 (World Models) (Speaker 2):
    • AI的一个统一目标是构建世界模型,即一个能够基于对当前世界状态的观察来模拟世界未来状态的系统,并且能够模拟系统自身行为对未来的影响。
    • 这包括:现实 -> 传感器收集信息 -> 世界模型感知 -> 模拟行动后果。
  • 世界的多模态感知 (Speaker 2):
    • 人类(及我们头脑中的世界模型)以多模态方式感知世界。例如,通过视觉、听觉、文本(如视频字幕)等。
    • “最好的世界模型将能够整合所有这些模态,并以富有成效的方式基于所有模态(而不仅仅是其中之一)做出决策。”
  • 多模态学习的任务 (Speaker 2):
    • 学习如何整合不同格式的多种信息流,以最准确地模拟世界将发生什么。
  • 多模态融合的两个主要原因 (Speaker 2):
    1. 翻译 (Translation): 捕捉一种模态中的所有信息并将其反映到另一种模态中。例如,文本到图像生成系统,希望文本提示中的所有信息都能在生成的图像中体现。
    2. 消歧 (Disambiguation): 获取仅在特定模态中可用的信息,以消除歧义,获得对世界状态的完整理解。例如,看到人们跑出大楼(视觉),结合火警警报声(听觉)或免费波霸奶茶的通知(听觉),可以明确具体情况。

多模态信息融合的技术方法回顾

Speaker 2 概述了文献中几种融合多模态信息流的方法,并讨论了“早期融合”与“晚期融合”的概念,尽管他认为此框架对他帮助不大。

  1. 学习联合嵌入空间 (Learning Joint Embedding Spaces):
    • 代表模型: CLIP (图像与文本), ImageBind (图像作为锚点,与其他多种模态如文本、深度图、音频进行对比学习)。
    • 核心思想: 通过对比学习,将不同模态的数据编码到同一个共享的嵌入空间。目标是使对应模态对的嵌入尽可能相似,不匹配的则尽可能远离。
    • 融合阶段: Eshed Margalit 认为这属于“相对晚期融合”,因为各模态的编码器在很大程度上是独立学习的,仅通过损失函数施加压力使其嵌入相似。
  2. 直接拼接原始输入 (Direct Concatenation of Raw Inputs):
    • 例子: 将3D RGB彩色图像与深度图像拼接为4通道输入,然后训练CNN或Vision Transformer。
    • 特点: “超级早期融合”
    • 局限性: 要求输入具有可拼接的维度(如图像的高度和宽度对齐),因此不常用。通常会先将原始输入投影到Token,再拼接Token流。
  3. 交叉注意力 (Cross-Attention):
    • 例子: Luit et al. 2019 的工作,图像Token流和文本Token流通过交叉注意力层交互。
    • 核心思想: 一个模态的Token流生成注意力操作中的查询(Queries),而另一个模态的Token流提供键(Keys)和值(Values)。由于操作不对称,通常会双向设置。
    • 实现细节: 输入X生成Q,另一流Y生成K和V。
    • 融合阶段: “中间融合”,取决于交叉注意力层在网络中的位置。
  4. Token拼接 (Token Concatenation):
    • 核心思想: “一切皆Token”。将来自不同模态的数据转换为Token序列后,可以直接拼接这些序列。
    • 例子:
      • Vision Transformer (ViT) 中预置的类别Token(可视为文本标签的嵌入)。
      • DALL-E 1 实现:文本Token后拼接图像Token(来自dVAE的离散码本),解码器无需区分Token来源。
  5. 自适应LayerNorm (Adaptive LayerNorm / AdaLN):
    • 代表模型: Diffusion Transformer (DiT)。
    • 核心思想: 将条件信息(如文本标签)通过一个(通常是线性的)层投影成小的标量参数(如alpha, beta, gamma),这些参数用于调整主处理流中LayerNorm操作的缩放和平移。
    • 优点: 参数高效,且效果良好。
    • Noetik.ai应用: 在其工作中越来越多地使用此方法。

Noetik.ai 在癌症研究中的多模态世界模型

  • 目标类比 (Speaker 2): 将宏观世界的“世界模型”概念应用于微观的癌症生物学世界,旨在回答诸如“如果我给这个病人用这个药会发生什么?”这类临床问题。
  • 癌症免疫治疗简介 (Speaker 2):
    • 免疫系统有时能检测并摧毁癌症。
    • 肿瘤会进化以逃避免疫系统或抑制免疫系统。
    • 免疫治疗旨在消除这些逃逸/抑制机制,重新激活免疫细胞。
    • Noetik.ai 的目标:1) 发现新药;2) 将现有药物更精准地匹配给合适的患者亚群。
  • Noetik.ai 的数据收集与处理 (Speaker 2):
    • 数据来源: 人类肺肿瘤样本(及其他器官肿瘤),目前已处理数千个(演讲时提及超过10,000个)直径约1mm的组织核心。
    • 多模态数据类型:
      1. H&E (苏木精-伊红染色) 图像: 相对便宜、易获取,提供形态学信息,类似于3通道RGB图像。
      2. 16-plex 蛋白质免疫荧光 (Protein Immunofluorescence): 检测16种不同蛋白质,通过荧光抗体标记,提供组织成分信息(如T细胞、B细胞、肿瘤细胞)。数据与H&E空间对齐,可视为16通道图像。
      3. 空间转录组学 (Spatial Transcriptomics): 使用Cosmic平台,进行1000-plex(后续提到正向18,000基因全转录组发展)的RNA转录本检测,数据点包含基因身份和空间位置(x, y, z,但z轴很薄,近似x,y)。每个1mm样本可产生数千至数百万转录本。
        • “Noetik估计我们拥有全球超过1%甚至2%的基于此平台(Cosmic)的空间转录组学数据。”
      4. 基因测序 (Genetic Sequencing): 全外显子组测序,了解患者可能与肿瘤生物学相关的基因突变。
  • 模型架构与训练任务 (Speaker 2):
    • 核心模型: 基于Transformer主干的掩码自编码器 (Masked Autoencoders)。
    • 输入: 单细胞的基因表达谱(行为基因,值为表达量,数据稀疏)。
    • Tokenization: 将“基因身份+表达水平”组合编码为一个Token。
    • 任务: 积极掩码 (Masking) – “通常超过90%的Token被移除”并替换为学习到的掩码Token,模型任务是预测被掩码的Token。
      • 目标是迫使模型学习深层生物学规律。
    • 多模态融合 - 空间上下文:
      • 输入增强: 考虑目标细胞的8个最近邻细胞的基因表达信息。
      • 信息瓶颈: 将邻域细胞的表达信息通过另一个Transformer压缩成一个单一Token。
      • 融合方式: 使用自适应LayerNorm (AdaLN) 将此邻域Token信息融入主干模型的处理流程(也尝试过Token拼接和交叉注意力)。
      • 效果: 显著降低主干模型的训练损失,帮助模型在模糊情况下做出更准确预测。
  • 模型应用与模拟 (Speaker 2):
    • 大规模推理与虚拟细胞模拟 ("Teleporter"):
      • 在真实患者样本的特定位置,给定一个“提示”(如假设中心细胞是杀伤性T细胞),模型结合周围真实空间上下文预测其他990+基因的表达。
      • 已进行“约60亿次此类虚拟细胞模拟” (截至演讲前一周)。
      • 开发了Web UI (teleporter.noetik.ai) 供探索。
    • 反事实模拟 (Counterfactual Simulations) - 药物效果预测:
      • 创建合成邻域: 例如,在真实邻域数据基础上,模拟药物作用(如敲低某个目标基因的表达)。
      • 观察对中心假设细胞(如T细胞)的影响,例如预测其肿瘤杀伤相关基因(如Granzyme K)表达量的变化。
    • 从H&E图像到空间转录组学的翻译:
      • 动机: H&E数据易得,空间转录组学数据昂贵稀有。
      • 方法: 将H&E图像的局部形态学信息(而非邻域基因表达)作为空间上下文输入到AdaLN,训练模型预测中心区域的基因表达。训练数据为成对的H&E和空间转录组学数据。
      • 推理: 输入H&E图像,完全掩码基因表达输入,模型仅根据H&E形态学预测完整的1000基因表达谱。
      • 成果: 模型能有效预测肿瘤标记物在H&E图像上的空间分布,并能基于预测的基因表达谱聚类患者,这些聚类与患者的实际基因突变状态相关。
    • 蛋白质图像预测模型:
      • 任务: 预测蛋白质图像(16通道)。
      • 输入: 将其他三种模态(H&E、空间转录组学、基因数据)作为额外Token拼接到主Token流中。
      • 模拟: 通过修改输入的空间转录组学数据(模拟药物抑制某基因)来观察模型预测的蛋白质免疫原性标记物的变化。
    • 未来方向 - 直接处理原始转录本点云:
      • 不再将RNA检测分配到细胞,而是直接处理原始的数百万转录本点云数据。
      • 训练模型在原始点云的局部空间上下文中进行预测。
      • “摆脱将细胞视为生物学模拟原子单位的需求,尽可能接近原始数据。”
    • 可解释性研究:
      • 使用稀疏自编码器等方法从模型中提取一致的生物学主题。
      • 构建界面,使生物学家能够利用这些主题进行例如基于文本标签的H&E图像自动语义分割。

问答环节要点 (Speaker 2, 3, 4)

  • Transformer在癌症研究中的重要性:
    • 易于扩展,经验上伸缩性好。
    • 适用于非图像类数据(如基因表达谱,类似文本)。
    • Token化机制使其极易于进行多模态融合。
  • 数据量与泛化:
    • 目前约8000名患者数据,对于单一癌症类型(如非小细胞肺癌)可能已覆盖大部分生物学多样性,但仍在扩展到更多癌种和器官。
    • 合成数据增强是可能的,但效果待验证。
  • 数据隐私 (HIPAA):
    • 可通过开源方法、提供安全数据处理端点服务、或与医院/研究机构建立正式合作伙伴关系来解决。
  • 与AlphaFold等现有模型的结合:
    • Noetik的工作可能处于上游(识别靶点),之后可结合AlphaFold等分子层面模型。跨尺度整合是挑战。
  • 健康人数据的缺乏:
    • 目前主要处理患者数据,缺乏健康状态下的数据,这是理解免疫系统正常运作和早期预防的一大局限。
  • Noetik.ai的商业模式:
    • “我们实际上是尽可能全栈的”:内部进行数据生成、机器学习、生物学研究,并拥有体内(in vivo)小鼠模型平台进行假设验证。
    • 目前不作为服务对外提供模型API,而是内部用于药物发现和理解临床试验。
  • 模型与临床试验:
    • 短期内无法取代临床试验,人类安全性和有效性验证仍是必需的。
    • 模型可以使药物发现的早期漏斗更高效,或帮助识别对特定药物反应良好的患者亚群,从而优化临床试验设计。
  • 模拟实验的优先级:
    • 目前主要依赖领域专家(生物学家、免疫学家)提出有价值的模拟方向。
    • 对LLM或AI智能体未来能自主设计有意义的实验持乐观态度,但目前尚未达到此水平。
  • 癌症预防:
    • 受限于健康数据的缺乏。未来若H&E等检测手段普及且廉价,模型或能从看似健康的样本中发现早期风险信号。
  • AI驱动的自主科学发现:
    • 对AI智能体在科学发现中的潜力持乐观态度,但目前在复杂生物学问题上,AI提出的实验尚未超越人类专家。

总结性评论 (Speaker 1)

  • 强调了本次演讲与近期更多关注LLM的讲座有所不同。
  • 指出机器学习和AI在癌症研究及整个医疗健康领域具有巨大潜力,能够产生积极影响、拯救生命,鼓励在该领域进行更多研究。

核心结论

Eshed Margalit代表Noetik.ai展示了其利用大型多模态世界模型进行癌症药物发现的创新方法。通过整合来自患者肿瘤的多种数据流(H&E图像、蛋白质组学、空间转录组学、基因组学),并利用先进的Transformer架构(特别是掩码自编码器和自适应LayerNorm),Noetik.ai旨在构建能够精确模拟患者生物学对药物反应的计算模型。这不仅有助于发现新药,还能更精准地将现有药物匹配给合适的患者,从而提高治疗效果。尽管面临数据获取、模型泛化和临床转化等挑战,但多模态机器学习为理解复杂疾病和加速药物研发开辟了充满希望的新途径。