人工智能的人类蛋白质数据库是研究的“巨大飞跃”
科学家周四公布了迄今为止最详尽的构成生命基石的蛋白质数据库,观察人士称这一突破将“从根本上改变生物学研究”。
每一个细胞生物体由蛋白质触发来执行其功能,这些蛋白质提供持续的指令来保持健康和抵御感染。
不像基因组——编码细胞生命的人类基因的完整序列人类蛋白质组随着遗传指令和环境刺激而不断变化。
几十年来,科学家们一直对蛋白质在细胞内的运作方式(即它们最终形成或“折叠”成的形状)着迷不已。
但是,通过直接实验来确定每种蛋白质的精确功能是非常艰苦的。
50年的研究到目前为止只发现了人类蛋白质组的17%氨基酸即蛋白质的亚单位。
周四,谷歌旗下DeepMind和欧洲分子生物学实验室(EMBL)的研究人员公布了一个由人类基因组表达的2万个蛋白质的数据库,该数据库可在网上免费开放。
它们还包括来自细菌、酵母和小鼠等20种生物的35万多种蛋白质,科学家们依靠它们进行研究。
为了创建数据库,科学家们使用了最先进的机器学习程序,该程序能够根据蛋白质的形状准确预测蛋白质的形状氨基酸序列。
他们没有花几个月的时间使用数百万美元的设备,而是在一个包含17万个已知蛋白质结构的数据库上训练他们的AlphaFold系统。
然后,人工智能使用一种算法准确预测人类蛋白质组中58%的蛋白质的形状。
这是研究人员在50年直接实验中发现的高精度人类蛋白质结构的两倍多,基本上是在一夜之间。
从研究来看,潜在的应用是巨大的遗传疾病以及对抗抗微生物耐药性,从而培育出更耐旱的作物。
蛋白质折叠问题的
2001年诺贝尔医学奖得主、弗朗西斯·克里克研究所所长保罗·纳斯说,周四的释放是“生物创新的一大飞跃”。
他说:“有了这种免费和公开的资源,科学界将能够利用集体知识来加速发现,为人工智能生物学开创一个新时代。”
朴茨茅斯大学(University of Portsmouth)酶创新中心主任约翰•麦吉汉(John McGeehan)表示,AlphaFold彻底改变了该领域。他的团队正在开发能够消化一次性塑料垃圾的酶。
“我们花了几个月甚至几年才完成的工作,AlphaFold在一个周末就能完成。我觉得我们刚刚比昨天跃升了至少一年,”他说。
通过计算机而不是实验来预测蛋白质氨基酸序列形状的能力已经在许多研究领域帮助了科学家。
AlphaFold已经被用于研究治疗严重影响贫穷国家的疾病的方法。
一个美国团队正在利用人工智能预测来研究克服耐药细菌菌株的方法。
另一个小组正在使用该数据库更好地了解导致Covid-19的SARS-CoV-2病毒是如何与人类细胞结合的。
2009年诺贝尔化学奖得主Venki Ramakrishnan表示,周四发表在《自然》杂志上的这项研究是化学研究领域的“惊人进步”生物研究。
他表示,AlphaFold基本上解决了所谓的“蛋白质折叠问题”,该问题认为,给定蛋白质的3D结构应该由其氨基酸序列确定,这一问题困扰了科学家半个世纪。
考虑到蛋白质理论上可以呈现的形状数量是天文数字,蛋白质折叠问题在一定程度上是处理能力的问题。
这项任务非常艰巨,以至于1969年,美国分子生物学家西里尔·莱文塔尔提出了一个著名的理论:要列举所有可能的宇宙,需要的时间比已知宇宙的年龄还要长蛋白质使用暴力计算的配置。
但由于AlphaFold每秒能够执行令人眼花缭乱的计算,在面对人工智能和算法时,这个问题毫无可能。
Ramakrishnan说:“它的发生远远早于该领域的许多人的预测。”
“它将在许多方面从根本上改变生物学研究,这将是令人兴奋的。”
更多信息:对人类蛋白质组进行高度精确的蛋白质结构预测,自然(2021)。DOI: 10.1038 / s41586 - 021 - 03828 - 1,www.nature.com/articles/s41586 - 021 - 03828 - 1
©2021法新社