给蛋白质拍“高清写真”:AI量子精修让分子结构更真实

要理解生命过程的分子机制,首先需要看清生物大分子的三维结构。解析原子级结构是结构生物学的核心任务,也是理解蛋白质功能、揭示遗传调控机制以及开展靶向药物研发的重要基础。无论是蛋白质催化反应、核酸传递遗传信息,还是抗体识别抗原,这些关键生物学过程都依赖精确的结构模型加以解释。

然而,在实验结构解析的最后一步——原子模型精修中,传统方法存在明显局限。现有主流软件主要依赖标准数据库中的立体化学约束,以维持合理的键长、键角并减少原子间冲突。这类约束主要针对共价结构,对氢键、π-堆积等重要的非共价相互作用缺乏系统描述,在低分辨率条件下可能导致模型偏离真实化学状态;当结构中出现新型配体或特殊连接时,还需要手动定义参数才能完成精修。此外,由局部化学环境引起的合理几何偏差,也可能被约束体系误判为异常并被强行修正。

理论上,量子力学方法能够更准确地描述分子间相互作用,但生物大分子通常包含数千甚至上万原子,全量子计算成本极高,因此现有研究大多局限于配体结合位点等局部区域。

近日,卡内基梅隆大学、波兰弗罗茨瓦夫大学、佛罗里达大学等高校的联合研究团队,在《自然·通讯》上发表了一项突破性研究,提出了一种人工智能驱动的量子精修方法AQuaRef。该方法首次实现了全蛋白质原子模型的量子精修,为结构生物学领域带来了新的技术路径。

AQuaRef的核心是基于AIMNet2机器学习原子势函数,并针对精修任务进行了定制训练。研究团队首先构建了一个涵盖100万样本的多肽数据集,系统覆盖化学组成、构象空间以及分子间相互作用三个维度,确保模型能够适用于各种多肽体系。在计算效率方面,AIMNet2框架展现出优异的线性扩展能力——对于包含约10万个原子的蛋白质体系,单点能量和力计算仅需约0.5秒;在单块配备80GB显存的NVIDIA H100 GPU上,最多可处理约18万个原子的模型,为生物大分子的全原子量子精修提供了可行的技术路径。

为评估AQuaRef的性能,研究人员构建了包含41个冷冻电镜模型和20个低分辨率X射线模型的测试集。结果显示,量子精修后的低分辨率模型在MolProbity score和Ramachandran plot Z-score等几何指标上均明显优于传统约束方法,同时模型与实验数据的拟合程度基本保持一致。在部分案例中,标准约束与量子精修所得结构的局部差异可达2埃,这意味着传统方法可能错过重要的结构细节。

在帕金森病相关蛋白DJ-1及其同源蛋白YajL的短氢键案例中,AQuaRef展现出独特优势。传统精修方法受数据库立体化学约束影响,往往会使键长偏离真实值。而当实验数据被截断至2埃分辨率、原子细节明显减少时,AQuaRef仍能恢复与原始1.15埃数据几乎一致的结构,精确定位质子位置。在YajL蛋白中,AQuaRef揭示了两处短氢键呈现典型的低势垒氢键特征,这一发现得到了差值电子密度图的支持。

总体来看,量子力学方法、机器学习势函数与实验结构数据的结合,正在为生物大分子结构精修提供一种新的技术路径。AQuaRef的成功研发标志着结构生物学从传统的经验约束迈向量子力学精度的重要一步,有望在低分辨率结构建模、配体结合模式分析以及功能位点研究等场景中发挥更稳定的作用,为理解生命过程的分子机制提供更精确的结构基础。