新智元报道
编辑:袁榭 snailnj
自从DeepMind公布AlphaFold系列的AI工具后,生物与制药的学界、业界都惊呼利器诞生。但这种AI利器,给生物学和医药学带来了哪些重大变化呢?
AlphaFold改变了生物学
十多年来,分子生物学家Martin Beck和他的同事一直在试图拼出世界上最难的拼图之一:人类细胞中最大的分子结构的详细模型。
这种被称为核孔复合体的庞然大物控制着分子进出细胞核的流动,也就是基因组所在的地方。每个细胞中都存在数百个这样的复合物。每个都由超过1000种蛋白质组成,这些蛋白质在穿过核膜的孔周围形成环。
这1000块拼图是由30多个蛋白质组成的,它们以各种方式交织在一起。让谜题更难的是,这些拼图块的实验确定的3D形状是许多不同种类蛋白质板块的混合体,所以并不总是能很好地结合在一起。
拼图盒子上的图片——核孔复合体的低分辨率3D视图——缺乏足够的细节,无法知道有多少碎片精确地组合在一起。
核孔复合体的模拟图
2016年,Beck领导的一个团队在德国法兰克福的马克斯·普朗克生物物理研究所(MPIB)报告了一个模型,该模型覆盖了约30%的核孔复合体和约一半的30个蛋白质构建块,称为Nup蛋白。
2021年7月,总部位于伦敦的DeepMind公司公开了一款名为AlphaFold2的人工智能工具。该软件可以根据基因序列预测蛋白质的3D形状,在很大程度上具有非常精确的准确性。这改变了贝克的工作,也改变了成千上万其他生物学家的研究。
「AlphaFold改变了游戏规则。」贝克说。
以色列耶路撒冷希伯来大学的计算结构生物学家Ora Schueler-Furman说:「这就像一场地震。你可以在任何地方看到它。」他当时正在使用AlphaFold来模拟蛋白质相互作用,研究期间正好遇到这事。
藉用AlphaFold,Beck与多家研究机构的合作团队,通过对AlphaFold的一项调整,他们成功地在2021年10月发布了一个模型,可以更准确地预测人类Nup蛋白的形状。
该模型覆盖了60%的复合物。它揭示了复合物是如何稳定原子核中的孔洞,同时也暗示了复合物是如何控制进出的物质。
在之后的半年里,AlphaFold热潮席卷了生命科学领域。「我参加的每一次会议,人们都在说,为什么不使用AlphaFold?」伦敦大学学院的计算生物学家Christine Orengo说。
在某些情况下,人工智能为科学家节省了时间,在另一些领域,它使以前难以想象或极其不切实际的研究成为可能。
它有局限性,一些科学家发现它的预测对他们的工作来说太不可靠了,但是基于人工智能开展的实验却从未停止。
即使是那些开发软件的人,也在努力跟上它在从药物开发、蛋白质设计到复杂生命起源等领域的应用。
DeepMind里领导AlphaFold 团队的John Jumper说:「我每天睡醒在推特上输入AlphaFold,看到的一切都是崭新的未来。」
一个惊人的成功
AlphaFold在2020年12月的一场名为「蛋白质结构预测关键评估」(Critical Assessment of Protein Structure Prediction, CASP)的竞赛中占据了优胜地位,引起了轰动。
这项竞赛每两年举行一次,衡量生物学中最大挑战之一的进展:仅从蛋白质的氨基酸序列来确定蛋白质的3D形状。参赛者用X射线晶体学或低温电子显微镜等实验方法,以建立蛋白质形状的图像。
Jumper 说,AlphaFold的2020版是其第二版。它之前还赢得了2018年的CASP,但其早期的努力大多不足以代替实验确定的蛋白质结构。然而,平均而言,AlphaFold2的预测结果与实际蛋白质结构的经验值相当。
当时还不清楚DeepMind何时会将该软件或其预测广泛发布,因此有研究人员使用了来自DeepMind的AlphaFold团队负责人John Jumper一次公开演讲的信息,结合他们自己的技术水平,开发了他们自己的人工智能工具,名为RoseTTAFold。
然后,在2021年7月15日,描述RoseTTAFold和AlphaFold2的论文同时发布。随论文公开的,还有免费提供的开源代码和运行自制版本的工具所需的其他专业信息。
一周后,DeepMind宣布,它已经使用AlphaFold预测了几乎每一种由人类设计的蛋白质结构,以及其他20种被广泛研究的生物体的整个「蛋白质组」,如小鼠和大肠杆菌——总共超过365000个结构。
DeepMind还将这些信息公开发布到EMBL欧洲生物信息学研究所(EMBL–EBI)维护的数据库中。自那以后,该数据库已增长到近100万个结构。
2022年,DeepMind计划发布总计超过1亿个预测结构。这几乎是所有已知蛋白质的一半,是蛋白质数据库(PDB)结构库中实验确定的蛋白质数量的数百倍。
AlphaFold的发展历程
AlphaFold部署了深度学习神经网络—受大脑神经网络启发的计算架构—以识别数据中的模式。它已经在PDB和其他数据库中通过实验确定了成千上万的蛋白质结构和序列。
面对一个新的氨基酸序列,它首先在数据库中寻找相关的序列,这些序列可以识别出倾向于一起衍变的氨基酸,这表明它们在3D空间中接近。
AlphaFold在试图为氨基酸的3D位置建模时,会从这些平行轨迹中反复迭代线索,并不断更新其估算值。现有相关蛋白质的结构还提供了另一种方法估算新序列中氨基酸对之间的距离。
专家表示,AlphaFold之所以效果表现如此优异,似乎是因为它在机器学习研究中应用了新方法,特别是它使用了自注意力机制,来确定在任何时候,哪些氨基酸连接对它的任务最重要。
该网络依赖于相关蛋白质序列的信息,这意味着AlphaFold有一些局限性。
AlphaFold不能用来预测突变对蛋白质形状的影响,比如那些导致疾病的突变。它也没有被训练去确定蛋白质在其他相互作用的蛋白质或分子(如药物)存在时是如何改变形状的。
但是它的模型带有评分机制,用来衡量神经网络AI对蛋白质中每个氨基酸单元的预测的置信值。研究人员正在调整AlphaFold的代码,以扩大其功能。
据DeepMind称,到目前为止,已有超过40万人使用了EMBL-EBI的AlphaFold数据库。还有一些AlphaFold的「超级用户」研究者在自设的服务器上安装了该软件,或者使用基于云版本的AlphaFold来预测EMBL-EBI数据库之外的蛋白质结构,或者设想该工具的新用途。
解决结构问题
AlphaFold解决蛋白质结构问题的能力给生物学家留下了深刻的印象。
丹麦奥胡斯大学结构生物学家Thomas Boesen说:「根据我目前所看到的情况,我非常信任AlphaFold。」该软件已经成功地预测了Boesen中心已经确定但尚未公布的蛋白质的形状。
Boesen说:「从我的角度看,这增加了我当前工作的信心」。他正在使用AlphaFold来模拟细菌蛋白质的结构,这些蛋白质促进冰晶的形成,可能有助于大气云中冰的冷却效果,因为生物学家还不能通过实验完全确定这种结构。
斯德哥尔摩大学的蛋白质生物信息学家Arne Elofsson说,只要一个蛋白质卷曲成一个明确的3D形状——并不是所有的蛋白质都是这样——AlphaFold的预测就很难被击败。「这是一键式的解决方案,可能是你所能得到的最好的结构。」
Elofsson 说,在AlphaFold不太确定的问题上,「它非常擅长告诉你什么时候它不起作用」。在这种情况下,预测出的蛋白质结构可能类似于浮动的意大利面条形状。
这通常对应于缺乏确定形状的蛋白质区域,比如独立的蛋白质结构。这种本质上无序的区域,可能只有在存在另一种分子时才能得到很好的定义,约占人类蛋白质组的三分之一。
伦敦癌症研究所的计算生物学家Norman Davey表示,AlphaFold识别蛋白质异常的能力,改变了他在识别病灶区域的研究。他说:「我们没有做任何努力,对癌症预测的质量立刻大幅提高。」
AlphaFold向EMBL-EBI数据库中输入的蛋白质结构也立即投入使用。有研究团队正在寻找新的、未经实验验证的蛋白质种类,并且已经发现了成百上千种可能的新蛋白质家族,这扩大了科学家对蛋白质的外观和功能的认识。
在另一项研究中,该团队正在搜索从海洋和废水中提取的DNA序列数据库,以试图识别新的、能食用塑料的酶。利用AlphaFold快速预测数千种蛋白质的近似结构的能力,研究人员希望更好地了解酶是如何进化来分解塑料的,并对其加以改善。
哈佛大学的进化生物学家Sergey Ovchinnikov表示,将任何蛋白质编码基因序列转换成可靠结构的能力对于生物进化研究来说至关重要。研究人员通过比较基因序列来确定生物及其基因在不同物种间的关系。
对于远亲基因,手动比较可能无法找到进化上的亲缘关系,因为序列变化数据集太大了。由于蛋白质结构往往比基因序列变化得慢,通过比较蛋白质结构,研究人员可能会发现物种间被忽视的古老亲缘关系。
苏黎世瑞士联邦理工学院的计算生物学家佩德罗·贝尔特劳说:「这为研究蛋白质进化和生命起源提供机会。」
为了验证这一想法,由首尔国立大学计算生物学家Martin Steinegger领导的团队,使用了他们开发的一种名为Foldseek的工具,在AlphaFold数据库中寻找导致新冠肺炎的病毒SARS-CoV-2的RNA复制酶的亲属。
这项研究发现了之前未被确认的、病毒可能的古代近亲:包括黏液霉菌等真核生物中的蛋白质在其3D结构上类似于被称为逆转录酶的酶,这种酶是HIV等病毒用来将RNA复制到DNA的,尽管在基因序列水平上几乎没有相似之处。
对于想要确定特定蛋白质的详细结构的科学家来说,AlphaFold的预测结果不一定是立竿见影的解决答案。不过,它提供了一个可以通过实验验证或改进的初始近似值,这本身是有助于理解实验数据的。
例如,用X射线晶体学方法获得的蛋白质晶体结构原始数据,一般以X射线的衍射图案这种形式呈现。
过去,科学家通常需要对蛋白质结构有估测的基准点,才能进一步解读这些数据。据英国剑桥大学的结构生物学家Randy Read称,他们以前经常将来自「蛋白质数据库」中相关蛋白质的信息拼凑起来,或者用其他方法来猜测基准点。
现在,AlphaFold的准确预测,使得过去的蛋白质晶体结构的X射线衍射图案判读方法的大多数都可以被放弃了。Read表示,他的实验室正在努力在实验模型中更好地利用AlphaFold,「有了AlphaFold后,我们完全重新调整了研究重点。」
Read和其他研究人员已在使用AlphaFold从X射线的扫描图片数据中确定晶体结构,之前这些数据在没有足够初始基准值的前提下是无法解析的。
Read实验室的前博士后、现在在分析公司SciBite工作的Claudia Millán Nebot 说,学界正在藉AlphaFold解决多年来一直无法解决的此类障碍。她预计将有大量新的蛋白质结构提交给「蛋白质数据库」,这在很大程度上是AlphaFold的功劳。
专门从事低温电镜检测的实验室也是如此,低温电镜可以捕捉到速冻蛋白质的照片。
在某些情况下,AlphaFold能准确预测称为「G蛋白偶联受体」(GPCR) 的蛋白质的独特特征,这些蛋白质是重要的药物靶标,而其他计算工具在做类似预测时多会出错。
美国北卡罗来纳州教堂山大学的结构生物学家、药理学家Bryan Roth称:「AlphaFold似乎非常适合生成首个基准模型,然后我们用电镜观测到的和其他实验数据对其进行改进,这为我们大大节省时间。」
不过Roth表示AlphaFold并非永远准确。在他的实验室已经解析出但尚未发表的几十个GPCR结构中,「大约有一半的时候,AlphaFold预测的蛋白质结构相当准确。不过在另一半的时候,AlphaFold就非常没用」。
Roth说,在某些情况下,AlphaFold标记成高置信度的蛋白质结构预测,在用实验跑过、电镜跑过之后,发现是完全错误的。
即使AlphaFold预测对了,它现在也无法模拟靶点蛋白质与药物或其他小分子配体结合时的微观外观,而这种结合会大大改变蛋白质的分子结构。这些弊端让Roth对AlphaFold在药物开发上的当下用处不抱乐观态度。
在药物开发工作中,越来越普遍的做法是使用对接实验室的计算软件,来在数十亿个小分子中筛选出一些可能与靶点蛋白质结合的分子,这表明它们可以制造有用的药物。
Roth现在正与加州大学旧金山分校的药物化学家Brian Shoichet合作,探索如何将AlphaFold的预测结果,与这种办法中通过实验确定的蛋白质结构进行比较。
Shoichet称,他们将工作限制在AlphaFold预测结构与实验最终结构相吻合的蛋白质上。但即使在这些情况下,前述的对接软件也会对实验产生的蛋白质结构和AlphaFold预测结构给出不同的药物开发命中率,这表明即使微小的差异也可能很关键。
「这并不意味着我们无法发现新的配体,我们只是会发现不同的配体,」Shoichet说。他的团队现在正在合成用AlphaFold识别出蛋白质结构的潜在药物,并在实验室中测试它们的活性。
制药业界对AlphaFold是批判性乐观
Shoichet表示,现在制药公司和生物技术公司的研究人员对AlphaFold助力药物开发的潜力感到兴奋。「我会把大家的心态称作批判性的乐观态度。」
2021年11月,DeepMind推出了它自己的生物技术子公司IsoMorphic Labs,旨在将AlphaFold和其他AI工具应用于药物发现。不过该公司对此项目并不透露太多信息。
Karen Akinsanya是总部位于纽约市的药物开发企业薛定谔公司的临床药物开发部门负责人,她们公司也开发了化学反应模拟软件。
Karen表示自己与同事已经在使用AlphaFold上取得了一些成功,其中包括了发现在虚拟环境模拟与现实药物成分设计都可行的GPCR结构。
她发现,就像实验生成的蛋白质结构一样,研究者要用更多的额外软件/算法,才能获取特定氨基酸侧链或特定氢原子可能所在位置的细节信息。一旦获得这些信息,AlphaFold的预测结果就足以指导在某些情况下的药物开发。
Akinsanya表示:「如此开发出的药物很难说是万灵丹,因为软件设计结合AlphaFold预测可以开发出在特定方面非常令人惊讶且兴奋的一种药物分子结构,但这种办法显然不适合所有药物分子结构的研发」。
而且,Akinsanya和同事发现,AlphaFold的蛋白质结构预测即使准确,也不能确保某个分子结构是否能通过药物开发的后续筛查步骤。她说,AlphaFold的蛋白质结构预测永远不会完全取代药物开发中的实际实验,但可以作为补充方法来加速开发进程。
对AlphaFold感到好奇的药物开发商在2022年1月份收到了好消息,当时DeepMind取消了对AlphaFold用于商业应用的关键限制。
当DeepMind公司在2021年7月开源AlphaFold的代码时,它基于在数十万个蛋白质结构和序列上训练神经网络AI的最终结果,规定了运行AlphaFold所需的参数或权重,也规定了仅限于非商业用途使用。
Akinsanya表示,此限制对药物开发行业中的一些人来说是一个瓶颈,当DeepMind改变规定时,药物开发行业出现了一股「兴奋的浪潮」。开发者之一称RoseTTAFold也有类似的限制,但下一个版本将完全开源。
AI工具不仅改变了研究者确定蛋白质外观的方式, 一些研究人员正在使用它们来制造全新的蛋白质。
西雅图华盛顿大学的生物化学家、蛋白质设计领域的领军人David Baker说:「深度学习工具正在彻底改变我的研究组中蛋白质设计的方式」。他的团队与计算化学家Minkyung Baek一起主导了开发RoseTTAFold的工作。
Baker团队让AlphaFold和RoseTTAFold来「幻想」出新的蛋白质,研究人员已经修改了这两个AI模型的代码,因此,给定氨基酸的随机序列,软件将对其进行优化,直到它们形成会被判别为类似蛋白质的结构。
AlphaFold「幻想」蛋白质结构的过程
2021年12月,Baker团队报告说,在细菌中表达了129种此类「幻想」出的蛋白质,并发现其中约五分之一折叠成接近于其预测结构的最终形态。「这的确是学界首次证明研究者可以使用这些神经网络AI设计前所未有的蛋白质。」
Baker团队现在正在使用这种方法来设计各种特定蛋白质,例如催化特定的化学反应。方法是指定负责所需必备功能的氨基酸,并让AI「幻想」蛋白质序列的其余部分。
黑掉AlphaFold
当DeepMind开源其AlphaFold代码时,Ovchinnikov想要更好地了解该工具的工作原理。
几天之内,他和几位计算生物学的同事建立了一个名为ColabFold的网站,允许任何人向AlphaFold或RoseTTAFold提交蛋白质序列并获得结构预测结果。
Ovchinnikov设想他和其他研究者会使用ColabFold来尝试「打破」AlphaFold,例如,通过提供有关目标蛋白质序列在进化过程中的近亲蛋白质的虚假信息。通过这样做,Ovchinnikov希望自己能够确定神经网络是如何学会如此出色地预测蛋白质结构的。
事实证明,尽管大多数使用ColabFold的研究人员只是想获得蛋白质结构的预测结果,但其他人则将其用作修改对AlphaFold的输入来试探此AI的平台。AlphaFold的开发负责人Jumper说:「我没想到会有这么多种类的黑客攻击。」
到目前为止,最流行的黑客攻击是在给AlphaFold输入特定的蛋白质复合物序列,此类复合物由多个相互作用的、常常相互交织的肽链组成。
就像核孔复合物一样,细胞中的许多蛋白质在与多个蛋白质亚基形成此类复合物时发挥前所未有的作用。
AlphaFold的设计目的旨在预测单个肽链的形状,其训练数据完全由单肽链类蛋白质组成。但神经网络AI似乎很快学会了一些关于蛋白质复合物如何折叠在一起的知识。
在AlphaFold代码开源几天后,东京大学的蛋白质生物信息学家Yoshitaka Moriwaki在推特上表示,如果将两个蛋白质序列与一个更长的链接序列缝合在一起,AlphaFold也该可以准确地预测它们之间的相互作用。
ColabFold网站后来加入了预测复合物的能力。而在2021年10月,DeepMind发布了一个名为AlphaFold-Multimer8的更新,与其前身不同,该更新专门针对蛋白质复合物进行训练。
Jumper的团队将其应用于「蛋白质数据库」中的数千个复合物,发现它预测了大约70%的已知的蛋白质序列之间的相互作用。
这些工具已经在帮助研究人员发现新的、潜在的蛋白质配对。
有研究团队用AlphaFold预测了65000个人类蛋白质配对的结构,根据实验数据,这些蛋白质配对之前被猜测有相互作用。
另一个团队使用AlphaFold和RoseTTAFold来模拟酵母编码的几乎每对蛋白质之间的相互作用,识别出100多种以前未知的复合物。
研究者称,这些筛除结果只是起点,AI在预测某些蛋白质配对方面做得更好,尤其是那些结构稳定、但更多瞬时相互作用难以被识别的蛋白质配对。
「不过,因为配对序列看起来不错,并不意味着它是正确的,你需要一些实验数据来对其证明。」
核孔复合体项目是预测结构和实验数据如何协同工作的一个很好的例子。研究人员表示:「并不是说我们将所有30种蛋白质的序列数据都输入AlphaFold,AI就能跑出个可用的蛋白质结构除了。」
为了将预测出的蛋白质结构真正在实验中复现,该团队拍摄了核孔复合物的3D图像以求验证。这些图像是用低温电子显微镜、通过一种称为「低温电子断层扫描」的技术拍摄的。
在一次实验中,用来确定蛋白质接近度的实验,在复合物的两个成分之间施加时,激发此二者间产生了之前未记录的相互作用并被拍摄纪录。而AlphaFold的模型预测结果之后又与纪录相吻合,说明AlphaFold能成功预测此前未有的蛋白质反应。
这种成功的实验模式将是以后分子生物学界其他实验和模拟的起点,这些未来的实验和模拟将能检验核孔复合体的机能,以及它如何在疾病组织中异变/失能的原因。
AlphaFold的局限
尽管AlphaFold取得了这些进展,研究者们表示,更重要的是要清楚它的局限性,特别是因为不专门预测蛋白质结构的研究人员会使用它。
将AlphaFold应用于破坏蛋白质自然结构的各种突变的尝试,包括与早期乳腺癌相关的突变,已证实该软件无法预测蛋白质全新突变的后果,因为没有蛋白质进化相关的序列可供参照。
AlphaFold团队现在正在思考如何设计新的神经网络AI来处理蛋白质结构的全新突变。Jumper预计这将需要神经网络AI更好地预测蛋白质如何从展开状态变为折叠状态。
纽约市哥伦比亚大学的计算生物学家Mohammed Al-Quraishi称,这可能需要AI只基于它已习得的生物物理学知识来预测蛋白质结构。
「我们感兴趣的一点,是在不使用进化信息的前提下从蛋白质单个序列进行预测,这是一个尚未解决的关键问题。」
AlphaFold 被设计用来预测单一的蛋白质结构,尽管它被黑到可以跑出不止一个预测结果。
但是许多蛋白质具有多种构成,这对其生物机能很重要。AlphaFold预测是针对孤立的蛋白质结构,不能处理能采用多重构象的、真实的不同结构蛋白质。而真实的蛋白质与配体(如DNA和RNA)、脂肪分子和矿物质(如铁)一起发挥作用。
Al-Quraishi坦承,开发能克服这些短板的新一代神经网络AI将是一个巨大的挑战。
AlphaFold的成功依赖于此前生物界数十年的研究,这些研究与实验产生了AI可以学习的蛋白质结构数据。
目前在蛋白质动力学上无法获得同等大量的数据来训练AI。同样地,蛋白质可以与之相互作用的数万亿个小分子的形状数据也付之阙如。
「蛋白质数据库」里包含部分蛋白质与其他分子相互作用时的结构,但这仅包括了真实蛋白质种类中的一小部分化学多样性。
研究人员认为,他们需要时间来确定如何最好地使用AlphaFold和相关的AI工具。这与电视业早期相似,当时主要的节目由无线电广播员出镜,内容只是阅读新闻。学界需要找到真正的、颠覆现状结构的新用法。
至于AlphaFold带来的革命性改变的终点在哪里,谁也说不准。业界的创新速度极快,即使在不到一年中,这些AI工具也很可能带来翻天覆地的重大突破。」
EMBL-EBI的计算生物学家Janet Thornton认为,AlphaFold 的最大影响之一,可能就是让生物学家对计算和理论方法的见解更加开放。「对我来说,革命就是思维方式的改变。」
AlphaFold带来的革命性改变最终激发了研究界的远大梦想。受AlphaFold启发的AI工具不仅可用于对单个蛋白质和复合物进行建模,还可以对整个细胞器亚结构甚至完整的全部细胞进行建模,并且细致到单个蛋白质分子的水平。这将是学界未来几十年的追求目标。
参考资料:
https://www.nature.com/articles/d41586-022-00997-5
原文链接:https://cloud.tencent.com/developer/article/1987971