2025-10-28
返回列表
在药物发现的实验环节中,High Content Screening(高内涵筛选,简称 HCS)已成为理解药物效应的中枢技术。 它的逻辑是:在细胞层面施加扰动(化合物、siRNA、基因编辑等),拍下多通道显微图像,从细胞形态、结构和亚细胞定位的变化中,推断药物作用机制(MOA)、命中率、毒性风险等。
过去十几年,HCS 的瓶颈从不是显微镜,而是“分析”——如何把成千上万张图像变成可用的定量特征。早年管线依靠手动分割、特征提取(细胞大小、圆度、颗粒度等),信息损失大、算法迁移性差。
AI 尤其是深度学习的成熟,刚好在 HCS 最需要的地方“出现”了。 显微图像天然具有高维结构、空间相关性与复杂背景,而神经网络正擅长从原始像素直接学习有意义的表征。 这使得“从图像直接到结论”(end-to-end)的模式第一次真正可行。
AI 真正“落地”的前提并不神秘:算法 + 硬件 + 数据三者协同。 正如 2012 年 AlexNet 之于计算机视觉,今天的药物影像学,也正在经历同样的共振时刻。
在早期工作中,Novartis 团队受 ImageNet 启发,用卷积神经网络直接从显微图像预测表型类别(phenotype labels),不再手动分割或预定义描述符。 神经网络自己“学”出哪些纹理、形态最能区分不同药物效应,结果显著提高了表型分类的准确性与可迁移性。
而近几年真正引爆创新的,是生成式AI(generative AI)的应用——不仅分析图像,还“生成”图像,用算法替代部分实验步骤。 在这方面,Peter 介绍了两种革命性实践:
In silico labeling(简称 ISL)是 Novartis 在 HCS 工作流中率先实现的生成式应用。 简单说,就是用 AI 模型根据一张明场图像(brightfield)直接生成对应的荧光染色图像(fluorescent channels),不再需要实际染色或激光扫描。
这种方法的灵感来自“给黑白照片自动上色”。 模型同时学习明场与荧光配对图像,学会从灰度背景中预测不同染料通道下的发光模式。
它的价值非常实际:
验证结果显示,即便模型输出并非像素级完美匹配,在实际任务上(如phenotypic hit expansion)性能几乎与真实图像相当。 例如,用 ISL 生成的指纹去做 phenotypic hit expansion,命中富集倍数约为 3 倍,与真实荧光图像结果几乎无差。 这说明在 HCS 场景中,“有用”比“逼真”更重要。
如果 ISL 是“让染色数字化”,那 pDIFF(profile-conditioned diffusion model)就是“让显微镜数字化”。
pDIFF 的设想看似科幻:不给任何显微图像,只输入化合物信息,让 AI 直接生成细胞图像。 它基于扩散模型(diffusion model)的原理——训练模型去“反向去噪”,逐步从随机噪声中“雕刻出”逼真的图像。
关键是输入条件(conditioning)。 普通的 diffusion model 用文本 prompt,比如 “an astronaut riding a horse”。 而在 pDIFF 中,输入的不是文字,而是化合物的“生物活性指纹”(bioactivity profile),来自 pQSAR 模型预测的跨测定活性向量。
这意味着模型学到的是:不同生物活性模式对应怎样的细胞表型图像。
验证方式也非常巧妙: - 用已知机制的化合物(MOA box)训练模型; - 比较真实显微图像与生成图像在表型空间中的相似度。
结果表明,pDIFF 生成的图像能稳定复现 40–60% 的真实“邻近表型”结构,显著优于仅基于化学结构或随机生成的基线模型。 在内部项目试点中,这种虚拟表型扩展带来了 约 12 倍的命中富集(hit enrichment) —— 说明它不仅能“画”,还能“帮你少做很多实验”。
换句话说,pDIFF 让“虚拟成像”成为真实项目中的筛选环节,而不仅仅是科研概念。
这场演讲并非“AI 愿景”,而是典型的工业工程思维。
这些模型仍有边界:
| 层次 | 技术范式 | 价值主张 |
|---|---|---|
| 1️⃣ 判别式建模 | End-to-end 深度表型分类 | 替代人工特征提取,提高可迁移性 |
| 2️⃣ In Silico Labeling | 数字染色 | 节省时间、成本,减少细胞扰动 |
| 3️⃣ pDIFF | 条件生成 | 虚拟表型扩展,减少实验量,扩大化合物探索空间 |
图像分析是制药工业中最成熟的 AI 应用领域。 AI 不会让实验消失,但会让实验路径更短、更智能、更可复用。
下一步的方向,是让图像嵌入(image embeddings)更语义化、更跨任务。 他提到类似 masked auto-encoder、Recursion 与 Meta 的自监督模型,可以为图像生成更稳定的 representation,从而提升 MOA 归因、异常检测、质量控制的精度。
长期目标,是把 结构信息(chemistry)、活性谱(bioactivity)、影像表型(imaging phenotype) 融合进同一多模态空间,让“相似性”成为一种统一可计算的语言。
AI 在药物影像学中的价值,不是“图像看起来多真实”, 而是:能否更快、更廉价、更稳健地做出正确决策。
在这个意义上,in silico labeling 和 pDIFF 不是“技术炫技”,而是药物发现工作流的一次底层重构。 当 AI 生成的“虚拟表型”开始真正影响化合物筛选决策的那一刻,药物研发的实验定义也在被重新改写。
上一篇:已经没有了