logo

科学资讯

首页 > 新闻与活动 > 科学资讯

AI与高内涵筛选:Novartis的实践与启示

2025-10-28
返回列表

一、AI 与高内涵筛选的相遇:为什么是现在

在药物发现的实验环节中,High Content Screening(高内涵筛选,简称 HCS)已成为理解药物效应的中枢技术。 它的逻辑是:在细胞层面施加扰动(化合物、siRNA、基因编辑等),拍下多通道显微图像,从细胞形态、结构和亚细胞定位的变化中,推断药物作用机制(MOA)、命中率、毒性风险等。

过去十几年,HCS 的瓶颈从不是显微镜,而是“分析”——如何把成千上万张图像变成可用的定量特征。早年管线依靠手动分割、特征提取(细胞大小、圆度、颗粒度等),信息损失大、算法迁移性差。

AI 尤其是深度学习的成熟,刚好在 HCS 最需要的地方“出现”了。 显微图像天然具有高维结构、空间相关性与复杂背景,而神经网络正擅长从原始像素直接学习有意义的表征。 这使得“从图像直接到结论”(end-to-end)的模式第一次真正可行。

AI 真正“落地”的前提并不神秘:算法 + 硬件 + 数据三者协同。 正如 2012 年 AlexNet 之于计算机视觉,今天的药物影像学,也正在经历同样的共振时刻。

二、从“人工特征”到“神经理解”:AI 在 HCS 中的两次跃迁

第一次跃迁:判别式模型替代特征工程

在早期工作中,Novartis 团队受 ImageNet 启发,用卷积神经网络直接从显微图像预测表型类别(phenotype labels),不再手动分割或预定义描述符。 神经网络自己“学”出哪些纹理、形态最能区分不同药物效应,结果显著提高了表型分类的准确性与可迁移性。

第二次跃迁:生成式 AI 补全实验

而近几年真正引爆创新的,是生成式AI(generative AI)的应用——不仅分析图像,还“生成”图像,用算法替代部分实验步骤。 在这方面,Peter 介绍了两种革命性实践:

三、In Silico Labeling:数字染色让显微镜轻盈起来

In silico labeling(简称 ISL)是 Novartis 在 HCS 工作流中率先实现的生成式应用。 简单说,就是用 AI 模型根据一张明场图像(brightfield)直接生成对应的荧光染色图像(fluorescent channels),不再需要实际染色或激光扫描。

这种方法的灵感来自“给黑白照片自动上色”。 模型同时学习明场与荧光配对图像,学会从灰度背景中预测不同染料通道下的发光模式。

它的价值非常实际:

  • 速度快、成本低:无需染色、洗板、激发,显微成像时间缩短一个数量级;
  • 无限复用:理论上可以生成任意数量的“虚拟染色通道”;
  • 避免染色干扰:某些染料有细胞毒性或光漂白效应,ISL 避免了这一扰动;
  • 支持时间序列实验:无需染色固定,细胞可以持续观察。

验证结果显示,即便模型输出并非像素级完美匹配,在实际任务上(如phenotypic hit expansion)性能几乎与真实图像相当。 例如,用 ISL 生成的指纹去做 phenotypic hit expansion,命中富集倍数约为 3 倍,与真实荧光图像结果几乎无差。 这说明在 HCS 场景中,“有用”比“逼真”更重要

四、pDIFF:当 AI “自己画出”显微图像

如果 ISL 是“让染色数字化”,那 pDIFF(profile-conditioned diffusion model)就是“让显微镜数字化”。

pDIFF 的设想看似科幻:不给任何显微图像,只输入化合物信息,让 AI 直接生成细胞图像。 它基于扩散模型(diffusion model)的原理——训练模型去“反向去噪”,逐步从随机噪声中“雕刻出”逼真的图像。

关键是输入条件(conditioning)。 普通的 diffusion model 用文本 prompt,比如 “an astronaut riding a horse”。 而在 pDIFF 中,输入的不是文字,而是化合物的“生物活性指纹”(bioactivity profile),来自 pQSAR 模型预测的跨测定活性向量。

这意味着模型学到的是:不同生物活性模式对应怎样的细胞表型图像

验证方式也非常巧妙: - 用已知机制的化合物(MOA box)训练模型; - 比较真实显微图像与生成图像在表型空间中的相似度。

结果表明,pDIFF 生成的图像能稳定复现 40–60% 的真实“邻近表型”结构,显著优于仅基于化学结构或随机生成的基线模型。 在内部项目试点中,这种虚拟表型扩展带来了 约 12 倍的命中富集(hit enrichment) —— 说明它不仅能“画”,还能“帮你少做很多实验”。

换句话说,pDIFF 让“虚拟成像”成为真实项目中的筛选环节,而不仅仅是科研概念。

五、工程化落地:从论文到流水线

这场演讲并非“AI 愿景”,而是典型的工业工程思维。

  1. 验证指标必须对业务有用
    ISL 不以像素匹配度作为评估标准,而以 downstream enrichment(命中富集倍数)衡量; pDIFF 通过 “real-real vs real-generated” 的检索重叠验证其可替代性。
  2. 数据拆分更贴近真实场景
    通过化学相似度聚类,确保测试集是“化学最不相似”的化合物(Tanimoto ~0.1)。
  3. 基础设施与硬件并行升级
    2 million compounds × 10 stains 的明场成像指纹化正在进行中; pDIFF 模型可在一周内完成针对特定细胞系的定制训练。
  4. 灵感来自工业视觉
    如 YOLO(You Only Look Once)模型、tracking-by-detection 被迁移到细胞成像,用于 organoid 遮挡、3D 分割。

六、局限与思考

这些模型仍有边界:

  • 实验条件差异(温度、培养基、光照)会显著影响成像一致性;
  • 生成图像的“好看”≠“有用”,必须通过任务指标验证;
  • pDIFF 的区分度受限于活性指纹质量;
  • 部分染料效应、动力学过程仍需真实测定,AI 不能取代机制实验。

七、总结:AI 不在“替代实验”,而在“重构路径”

层次 技术范式 价值主张
1️⃣ 判别式建模 End-to-end 深度表型分类 替代人工特征提取,提高可迁移性
2️⃣ In Silico Labeling 数字染色 节省时间、成本,减少细胞扰动
3️⃣ pDIFF 条件生成 虚拟表型扩展,减少实验量,扩大化合物探索空间

图像分析是制药工业中最成熟的 AI 应用领域。 AI 不会让实验消失,但会让实验路径更短、更智能、更可复用。

八、迈向多模态统一表征

下一步的方向,是让图像嵌入(image embeddings)更语义化、更跨任务。 他提到类似 masked auto-encoderRecursionMeta 的自监督模型,可以为图像生成更稳定的 representation,从而提升 MOA 归因、异常检测、质量控制的精度。

长期目标,是把 结构信息(chemistry)、活性谱(bioactivity)、影像表型(imaging phenotype) 融合进同一多模态空间,让“相似性”成为一种统一可计算的语言。

九、结语:AI 不是在“造图”,而是在“造决策”

AI 在药物影像学中的价值,不是“图像看起来多真实”, 而是:能否更快、更廉价、更稳健地做出正确决策

在这个意义上,in silico labelingpDIFF 不是“技术炫技”,而是药物发现工作流的一次底层重构。 当 AI 生成的“虚拟表型”开始真正影响化合物筛选决策的那一刻,药物研发的实验定义也在被重新改写。

上一篇:已经没有了

相关新闻

电话咨询

联系电话:

18914751072

微信咨询

打开微信扫一扫

返回顶部