新药研发如同在浩瀚宇宙中寻找特定星辰,人类基因组2万余个蛋白质如同2万余个未知星系,每个星系又蕴含多个潜在靶点“口袋”;而小分子化合物的宇宙更为广阔,理论数量高达10^60种——远超现有数据库的规模。传统分子对接工具面对如此天文数字级别的计算任务束手无策:筛选1万个靶点、每个靶点面对10亿候选分子,需要完成10^13次打分,即使动用最先进工具也需数百年。
药物研发长期深陷“高投入、高风险、低成功率”的泥潭,无数潜在靶点与化合物宝藏因技术局限深埋未掘。如何高效精准地在这双重宇宙间架设桥梁?AI驱动超高通量药物虚拟筛选平台DrugCLIP的诞生,正是清华智能产业研究院(AIR)兰艳艳教授团队对这一核心挑战给出的破局答案。
DrugCLIP的核心突破在于颠覆传统筛选逻辑。它创新性地构建了蛋白口袋与小分子的“向量化结合空间”,如同为分子世界绘制了一套精密的GPS坐标系统。通过融合对比学习、3D结构预训练与多模态编码技术,平台能在三维层面精确建模蛋白与配体的相互作用机制。训练完成后,高潜力分子会自然聚集于目标蛋白口袋的向量“邻域”内,将传统物理对接的海量计算难题转化为高效的向量检索问题。
这一革命性机制带来了震撼的速度飞跃:在128核CPU+8张GPU的配置下,DrugCLIP可实现毫秒级打分,日处理能力高达31万亿次!筛选100万个分子仅需0.02秒,效率较传统方法提升百万倍。在精度上同样表现优异,在DUD-E、LIT-PCBA等权威数据集上,其BEDROC、EF1%、AUC等关键指标全面超越AutoDock Vina等传统工具及近年代表性AI方法。
速度与精度只是起点,真实生物实验验证方显平台价值锋芒:
抑郁症靶点NET验证: 团队与清华闫创业教授合作,从160万分子中筛选出约100个高分分子。同位素配体转运实验显示,其中15%为有效抑制剂,12个分子的结合能力超越现有抗抑郁药物安非他酮。冷冻电镜解析的复合物结构,进一步为AI预测提供了坚实的生物学背书。
难成药靶点TRIP12攻克: 针对尚无任何文献报道抑制剂的E3泛素连接酶TRIP12(与肿瘤及帕金森症相关),团队与刘磊教授合作再次筛选出约50个高分分子。SPR实验证实其中10个分子具备结合能力,两个分子更展现出对TRIP12酶活性的抑制潜力,为开发针对该靶点的新药点亮了曙光。
尤为关键的是,DrugCLIP无缝衔接AlphaFold革命,能直接处理AlphaFold预测的蛋白结构及apo(无配体)状态下的蛋白口袋,极大扩展了其在真实药物发现场景的应用范围。依托此能力,团队首次完成了覆盖整个人类基因组约1万个蛋白靶点、2万个结合口袋的超大规模虚拟筛选,分析了超过5亿个小分子,富集出200万余个高潜力活性分子,构建了全球最大规模的蛋白-配体筛选数据库并开放共享,为全球科研社区提供了前所未有的资源宝库。
后AlphaFold时代的新范式已然开启: 今日,DrugCLIP平台已免费开放,用户无需本地部署,通过网页上传蛋白结构即可启动筛选之旅。它集口袋/分子编码、向量检索、可视化与分析于一体,支持多种分子库调用与自定义上传。
从NET到TRIP12的成功验证,从百万倍速度提升到人类基因组规模筛选的实现,DrugCLIP不仅是一个高效工具,更是创新药物研发逻辑的革新者。当AlphaFold照亮了蛋白质宇宙的结构图谱,DrugCLIP则提供了在化学宇宙中精准定位活性分子的星际导航——其开放性与强大数据处理能力,正将曾经遥不可及的“大海捞针”化为系统性的“按图索骥”,为抗癌、抗感染乃至攻克罕见病的全球新药研发注入澎湃的AI动力。
2025-06-10 08:22:32
海森大数据