AlphaFold
DeepMind开发的人工智能程序
AlphaFold(阿尔法折叠)是由DeepMind开发的一款蛋白质结构预测程序。借助AlphaFold,人类预测了几乎所有2亿种已知蛋白质的结构,并可以设计出人类自己的蛋白质。
AlphaFold采用深度学习技术,有AlphaFold 1(2018)、AlphaFold 2(2020)、AlphaFold 3(2024)3个主要版本。可以预测蛋白质或蛋白质-蛋白质复合物的结构,而是能够破解蛋白质与各种生物分子所形成的复合体结构及其相互作用。主研团队DeepMind汇集了来自结构生物学,物理学和机器学习领域的专家,以应用技术根据其基因序列预测蛋白质的3D结构。2018年,AlphaFold 1推出并在的CASP(蛋白质结构预测的关键评估)竞赛中排名第一,并成功预测了被评为最困难目标的蛋白质结构。在“蛋白质结构预测奥运会”CASP比赛中,力压其他97个参赛者。《卫报》报道称,AlphaFold预测出了43种蛋白质中25种蛋白质的最精确结构。在同一类别中排名第二的队伍,只预测出了3种。在2020年的CASP竞赛中,AlphaFold 2中位分数为92.4(满分100)。其准确度远高于其他任何程序。2024年5月,AlphaFold3发布,将技术扩展到蛋白质折叠之外,能准确预测蛋白质、脱氧核糖核酸核糖核酸配体等生命分子的结构及相互作用。
AlphaFold被美国《科学》杂志评为2020年十大科学突破之一;入围2021年中国工程院发布全球十大工程成就。
研究背景
蛋白质通常由20种不同的氨基酸组成,可以被描述为生命的基石。蛋白质是维持人们生命所必需的庞大而复杂的物质。人们身体的几乎所有功能,例如收缩肌肉、感知光线或将食物转化成能量等,都需要一种或多种蛋白质来完成。而蛋白质具体能做什么就要取决于它独特的3D结构了。纯粹基于其基因序列推测蛋白质的3D结构是一项非常具有挑战性的复杂任务。这是因为人们的脱氧核糖核酸通常只包含蛋白质中氨基酸残基的序列信息,而这些氨基酸残基形成的长链将会折叠成错综复杂的3D结构,加上蛋白质越大,需要考虑的氨基酸之间的相互作用就越多,对其结构的建模过程就会更加复杂和困难。
起源发展
探索期
19世纪以来,科学家们知道蛋白质对生命过程非常重要,直到1950年代,化学工具才精确到足以让研究人员开始详细地探索蛋白质。剑桥大学的研究人员约翰·肯德鲁佩鲁茨,M.F.,成功地使用了一种称为X射线晶体学的方法,提出了第一个蛋白质的三维模型,并于1962年获得诺贝尔化学奖
1994年,科学家们启动了一个名为“蛋白质结构预测关键评估(CASP)”的项目,并发展成为一个竞赛。但直到2018年,才出现了突破。国际象棋大师、神经科学专家、人工智能先驱戴密斯·哈萨比斯与人共同创立DeepMind(深思)公司。2014年,该公司被出售给谷歌,两年后DeepMind击败了围棋世界冠军,一战成名。
发展期
科学家们已经能够利用冷冻电子显微镜、核磁共振或X射线晶体学等技术在实验室中确定蛋白质的形状,但这些方法都需要通过大量的试错才能获得最终的结果,这可能需要花上好几年时间以及大量的资金。得益于基因测序成本的快速降低,基因组学领域的数据变得丰富了起来。一些科学家们开始利用AI技术开发深度学习算法,在基因组学数据的基础上对蛋白质结构进行预测。在此基础上,AlphaFold诞生了。
2018年12月,DeepMind宣布推出AlphaFold,能够预测并生成蛋白质的3D结构。将过去预测蛋白质结构最多达到40%的准确性,一下提高到了近60%。
2020年,戴密斯·哈萨比斯和约翰·M·詹伯发布AlphaFold2,在神经网络中引入了在自然语言处理中常用的注意力机制,用来考量蛋白质序列中关键残基的效应,这极大程度提高了蛋白质结构预测的精确性;系统能够生成出极其精确的蛋白质三维结构模型,在该模型的帮助下,研究人员已经能够预测并鉴定出2亿种几乎所有蛋白质的结构。同年11月30日,美国《科学》杂志网站称,alphafold攻克了生物学领域一项重大难题:预测蛋白质如何从线性氨基酸链卷曲成3D形状以执行任务,将加快新药研发进程。2020年12月,DeepMind发布消息称,其人工智能系统“AlphaFold”人工智能系统参加了由结构预测关键评估组织(CASP)的一项如何计算蛋白质分子3D结构的竞赛,并且预测准确性达到前所未有的水平。将为解决人类50年来的巨大挑战铺平道路。
2021年,Deep Mind与欧洲生物信息学研究所合作,公开了阿尔法折叠DB,这是一个包含数以万计的蛋白质结构预测的数据库。这些数据的公开让全球的科研人员都能够免费访问这些蛋白质结构信息。
2024年5月,AlphaFold3发布,标志着一项重大进步,将技术扩展到蛋白质折叠之外,能以前所未有的精度准确预测蛋白质、脱氧核糖核酸核糖核酸配体等生命分子的结构及相互作用。
工作原理
DeepMind团队使用的方法都以深度神经网络为基础,从基因序列中预测蛋白质的两种物理性质:氨基酸对之间的距离及连接这些氨基酸的化学键之间的角度。首先,研究小组训练了一个深度神经网络,来预测蛋白质中每对氨基酸残基之间距离的分布情况。然后,研究人员将这些数值转化为评分,来对蛋白质结构的精确程度进行评估。同时,研究人员还另外训练了一个神经网络,利用这些距离数值来评估预测结构与真实结构的接近程度。
DeepMind的研究人员在这些评分函数的基础上使用了一个生成神经网络,不断生成新的蛋白质片段来反复替换一段旧的蛋白质结构,这样一来,蛋白质结构的评分就被不断提高了。另外,研究人员还使用了一种名为梯度下降的方式来让AlphaFold预测的结构变得高度精确。
蛋白质三维结构由主链和侧链搭建而成,“阿尔法折叠3”在主链的预测上能够提供足够的有效信息,让人们看到主链的走势和蛋白质的整体结构,同时它也有效提高了对侧链预测的精度和速度,但并不能从根本上解决对于侧链的精细摆放问题。
关键技术
AlphaFold通过将机器学习作为蛋白质结构预测网络的核心组成部分,让AlphaFold从数据中自行发现模式规律。
技术不足处
DeepMind团队坦陈了该模型的诸多不足,模型输出有时会违反手性规则,尽管输入是正确手性的参考结构,模型偶尔会产生重叠的原子等。
主研团队
价值意义
社会效益
DeepMind 已经发布了该系统的详细工作原理,并发布了源代码。AlphaFold 开源之后,影响力逐渐扩大。该公司还与欧洲生物信息学研究所(European Bioinformatics Institute)建立了一个公共数据库,该数据库正在填充 AI 预测的新的蛋白质结构,条目几乎是科学已知的所有蛋白质。
抗体药物
在抗体药物方面,“阿尔法折叠3”具备极大优势,而在预测类似药物相互作用,包括蛋白质与配体的结合以及抗体与靶蛋白的结合方面,阿尔法折叠3达到了前所未有的准确性。
示范效应
AlphaFold 的出现让科学智能(Ai for Science)的概念开始深入人心。
所获荣誉
团体荣誉
个体荣誉
2024年10月9日,2024年诺贝尔化学奖的一半授予大卫·贝克,以表彰他在“计算蛋白质设计”方面的贡献,另一半授予戴密斯·哈萨比斯和约翰·詹伯,以表彰他们在“蛋白质结构预测”方面的贡献。
参考资料:
综合评价
Alphafold在加快研究速度方面具有变革性,。研究人员无需花费数年时间在实验室研究蛋白质,可以通过Alphafold在几分钟内得到结果。(伦敦国王学院的生物学家朱利安·伯杰龙 评)
尽管AlphaFold预测并非全部准确,但其提供了可信的假说,可以用作提示机制。所有这些能力很可能只是人工智能方法在结构生物学中日益广泛应用的开端。(《自然》杂志 评)
Alphafold3是诺贝尔奖级的成果,Alphafold3不是以往技术上的修修补补,直接改变了上一代版本的核心架构,用“扩散模块”取代了上一代中非常重要的“结构模块”,采用了生成扩散模型来预测生物大分子结构。(复旦大学复杂体系多尺度研究院院长马剑鹏 评)
人体每一种蛋白质都包含几十到几百种氨基酸,氨基酸的顺序决定了它们之间的作用,赋予蛋白质复杂的三维形状,进而决定了蛋白质的功能。几十年来,科学家利用X射线晶体学或低温电子显微镜等实验技术来破译蛋白质的三维结构,但这种方法可能需要数月甚至数年,且未必见效。“阿尔法折叠”的出现被认为改变了游戏规则,取得了根本性突破,同时,我们欣喜地看到这一AI还在不断升级、扩展,以更高的准确率覆盖到了更多的复合物。(《科技日报》评)
参考资料
新一代“阿尔法折叠”登场.河北省科学技术厅.2024-10-09
目录
概述
研究背景
起源发展
探索期
发展期
工作原理
关键技术
技术不足处
主研团队
价值意义
社会效益
抗体药物
示范效应
所获荣誉
团体荣誉
个体荣誉
综合评价
参考资料