《中国比较医学杂志》
图为美国费米国家加速器实验室进行的缪子实验,可能突破粒子物理标准模型。
回首2021,在极端天气频发的气候变暖警钟之下,在与起起伏伏的新冠疫情斗智斗勇之中,人类社会走过了蹒跚坎坷的一年。应对人类共同面临的挑战,这一年,科学的脚步依然坚定,为照亮人类未来之路披荆斩棘、坚毅前行。
人工智能(AI)预测蛋白质结构成为举世公认的年度科技亮点。最新出版的美国《科学》杂志将其列为年度十大科学突破之首,同周出版的英国《自然》杂志则将DeepMind团队AI研究员约翰·詹珀列为年度十大人物,称之为“蛋白质预测者”。
此外,首个口服抗新冠病毒药物问世、缪子实验出现可能突破标准模型的新结果、CRISPR应用于人体治疗遗传疾病等科学突破,共同构成了2021年科学“高光时刻”,让人们对未来充满期待。
1 AI预测蛋白质结构为探秘“生命之舞”提供全新视角
人工智能(AI)预测蛋白质结构,是2021年度当之无愧的“金牌”科学突破。这项AI领域的革命性突破,解决了持续50年的重大生物学难题,为探索人体与生命的本质铺平了道路。
就在2020年初,《科学》杂志预测该领域将取得突破性进展。很快,该领域就进入了猛烈的爆发期:AI不仅能够预测蛋白质结构,还能预测它们如何形成复合物、怎样相互作用。《科学》杂志在评论中指出,AI预测蛋白质结构的突破“是有史以来最伟大的科学成就之一,也将使未来研究加速”。
AI入局结构预测,终结半个世纪艰难探索
蛋白质是三大生命分子之一,它们遵循相同的基本形式:一条由多达20种不同的氨基酸组成的线性链,按照我们的DNA编码序列串在一起。在被称为核糖体的细胞工厂中,每条链会被组装、折叠成一个独特的、极其复杂的三维形状。这些形状决定了蛋白质如何与其他分子相互作用,以及它们在细胞中的作用。
上世纪50年代,研究人员开始通过X射线衍射来绘制蛋白质的三维结构。但绘制这样一张结构图,可能需要数年,而且每个蛋白质需要花费几十万美元。为了加快这一过程,上世纪70年代起,科学家开始通过计算机建模,来预测一个特定的蛋白质将如何折叠。
在过去近半个世纪中,科学家在蛋白质结构的预测之路上进行着艰难探索。2018年,由谷歌旗下DeepMind开发的AI驱动软件程序“阿尔法折叠”(AlphaFold)问世,使这一领域骤然进入爆发通道。
2020年,“阿尔法折叠2”展现出了更加耀眼的光彩。它由182个处理器组成的网络提供动力,这一基于神经网络的新模型预测的蛋白质三维结构,能够达到原子水平的准确度。这一结果震惊了很多结构生物学家。
《自然》杂志将DeepMind团队的AI研究员约翰·詹珀列为2021年度十大人物,称之为“蛋白质预测者”,并称由他领导的团队“发布了一个正在改变生物学的工具”。这句话恰如其分地形容出了AI给结构生物学带来的革命性变化。如今,AI软件可以快速计算出成千上万的精确蛋白质结构,而且这种方式适用于数以万计的蛋白质及其复合物。随着该领域的发展,计算和分子生物学也将被改变。
今年,AI预测蛋白质结构取得超速发展。今年7月,DeepMind团队与位于英国欣克斯顿的欧洲分子生物学实验室—欧洲生物信息学研究所一起,将基础代码公开,并公开了人类和其他20种模式生物中约25万个蛋白质预测结构。他们计划在明年发布所有物种已知蛋白质中近一半的结构,总计约1.3亿个。
从结构到相互作用,改变生物学的工具不断“上新”
《科学》杂志主编霍尔顿·索普在为此撰写的评论中指出,“这是真正意义上的蛋白质结构的普及”“就像费马定理的最终证明或发现引力波一样,它解决了一个在‘待办清单'上已经存在了50年的科学问题”,将大大促进科学发展。
然而,科学家并不满足于单纯预测结构。下一步,他们想要预测这些蛋白质的工作关系,以及它们如何相互作用。在今年10月出版的一篇预印本论文中,DeepMind团队公布了4433个蛋白质复合物,它们揭示了哪些蛋白质会相互结合以及如何结合。11月,RoseTTAFold又增加了912个复合物。RoseTTAFold是一种使用较少算力的算法,可预测蛋白质复合体的结构。
这项在结构生物学领域由AI驱动的爆炸性进展,为人类探秘“生命之舞”提供了一个前所未有的视角,它将永久改变生物学和医学的进程,是一项改变游戏规则的技术。AI模型的出现不仅可预测那些无法得到实验样品的蛋白质的结构,还使很多无力承担结构解析的实验室也能参与到相关研究中来。目前,利用已公开的代码,德国、美国、中国等科研人员已对几百种蛋白质有了更深入的了解。