人工智能快速打击COVID-19药物发现
全球竞争正在进行中发现一种疫苗,药物,或组合的治疗可以破坏SARS-CoV-2病毒,导致COVID-19疾病,防止大面积死亡。
虽然人员能够快速识别少数已知,食品和药品管理局批准了药物,可能是有前途的,其他主要的努力正在进行中,以屏幕上每一个可能的小分子,可能与病毒和蛋白质,控制其行为破坏活动。
问题是,有超过十亿个这样的分子。研究员将可以想象想要测试每一个反对二十几个蛋白质SARS-CoV-2看到他们的效果。这样的项目可以使用世界上每一个湿实验室和几个世纪以来还没有完成。
所使用的计算机模拟是一种常见的方法作为一个初步的学术研究人员和制药公司,在药物发现过滤步骤。然而,在这种情况下,即使是地球上每一个超级计算机不能测试那些十亿分子在合理的时间内。
“这是会有可能把所有可用的计算能力问题和得到有用的见解?”问阿文德•拉马纳坦,数据科学的计算生物学家和学习部门在美国能源部(DOE)的阿贡国家实验室的资深科学家和芝加哥大学的财团的先进的科学和工程(CASE)。
除了工作更快,计算机科学家们正在更聪明地工作。
阿贡国家实验室研究员领导的大型合作结合了人工智能和基于物理对接和药物分子动力学模拟快速的最有前途的分子在实验室测试。
这样做把挑战变成数据,或者机器学习生产型企业,问题,拉马纳坦说。“我们试图建立基础设施集成人工智能和机器学习工具和基于物理的工具。我们这两个方法之间的桥梁得到更好的货真价实。”
这个项目是在行星上使用一些最强大的超级计算机Frontera和德克萨斯长角牛超级计算机高级计算中心;峰会在橡树岭国家实验室;θ的阿贡领导计算设备(ALCF);和彗星在圣地亚哥超级计算中心到数以百万计的模拟运行,训练机器学习系统给定的分子识别的因素可能使一个好的候选人,然后做进一步探索最有希望的结果。
“TACC已经对我们的工作至关重要,尤其是Frontera机、“拉马纳坦说。“我们已经在这一段时间,使用Frontera cpu的最大容量快速屏幕:采取虚拟分子并将它们蛋白质是否绑定,然后从这幅图中推断出其他分子是否也做同样的事情。”
这样做是一个不小的任务。在第一周,团队测试六百万个分子。目前模拟Frontera每小时300000配体。
“做大量的计算的能力是很好的,因为它给我们打,我们进一步分析可以确定。”
的一个目标
探索一个小的团队开始COVID-19 24蛋白质产生,ADRP磷酸酶(腺苷二磷酸核糖1”)。科学家们还不完全了解蛋白质的功能,但它是与病毒复制。
他们的深度学习+基于物理方法是让他们减少10亿可能的分子2.5亿;2.5亿年到600万年;和600万到几千。其中,他们选择最高的30左右的“分数”的强烈结合蛋白质的能力,并破坏蛋白的结构和动力学的终极目标。
最近他们共享他们的结果与实验的合作者在芝加哥大学和弗雷德里克癌症研究国家实验室在实验室测试,并将很快发表他们的数据在一个开放的访问报告所以成千上万的团队可以分析结果,获得的见解。实验结果将进一步向深度学习模型,帮助调整预测未来protein-drug交互。
团队已经转移到COVID-19主要蛋白酶,在翻译中扮演着重要的角色病毒RNA,并将很快开始工作更具挑战性的计算更大的蛋白质,但可能很重要。例如,团队正准备模拟Rommie Amaro所有原子模型的整个病毒,目前Frontera产生。
团队的工作使用DeepDriveMD-Deep-Learning-Driven适应性分子模拟对蛋白质折叠一个尖端工具包拉马纳坦联合开发的团队在阿贡,连同Shantenu Jha罗格斯大学的研究小组/布鲁克海文国家实验室(BNL)最初作为Exascale计算机项目的一部分。
拉马纳坦和他的合作者并不是唯一的研究人员将机器和深度学习应用到COVID-19药物发现的问题。但根据Arvind,人工智能方法是罕见的程度和模拟是一款和迭代,而不只是post-simulation使用。
“我们建立了深度学习在线工具包,使样品当我们沿着,“拉马纳坦说。“我们先用一些数据训练它,然后让它推断很快传入的仿真数据。它标识,然后,基于新快照的方法自动决定如果训练需要修改。”
系统首先建立绑定稳定潜在的分子在一个相当简单的方式,然后添加更多和更复杂的元素,像水一样,或执行细分析的能量系统的概要文件。“信息添加不同的汇集点,根据结果,它可能需要修改对接或机器学习算法”。
其复杂工作流是精心策划多个超级计算机使用RADICAL-Cybertools,先进的工作负载执行和调度工具由罗格斯/ BNL计算专家。
“工作流有复杂的需求,”Shantenu Jha说,主席BNL中心的数据驱动的发现和激进的领导。“谢谢TACC的技术支持我们能够达到所需的水平的吞吐量以及规模Frontera几天内长角牛和投产运行。”
应用科学的武器
在得到他们的研究团队有一些优势。
美国能源部运作的一些世界上最先进的x射线晶体学实验室,和其他人合作。他们能够快速提取的三维结构的许多COVID-19蛋白,第一步做的计算模型来探索这种蛋白质如何应对药物类分子。
他们也积极致力于一个项目与国家癌症研究所使用DeepDriveMD工作流来识别有前途的药物来对抗癌症。他们很快就转向了COVID-19工具和方法,已经被测试和优化。
虽然人工智能经常被认为是一个黑盒子,拉马纳坦说他们的方法不只是盲目地生成一个目标列表。DeepDriveMD演绎什么常见的一种蛋白质方面使它成为一个更好的候选人,和沟通这些见解的研究人员来帮助他们理解实际上是发生在病毒有和没有药物的相互作用。
“我们的深度学习化学组模型可以磨练我们认为交互至关重要,”他说。“我们不知道这是真的,但我们发现对接分数更高,相信它捕获重要的概念。这不仅是重要的对这种病毒会发生什么。我们也试图了解病毒通常工作。”
药物类小分子一旦发现是有效的在实验室里,需要进一步测试(计算和实验)从一个有前途的治疗目标。
“发展中分子疫苗需要这么长的时间,因为需要优化的功能。他们必须研究确定他们不是有毒,不要做其他伤害,而且它们可以生产规模,”拉马纳坦说。
所有这些进一步措施,研究人员认为,可以通过使用加速混合人工智能,基于物理的建模方法。
根据里克•史蒂文斯阿贡实验室主任助理的计算、环境和生命科学,TACC一直非常支持他们的努力。
“快速反应和参与我们已经收到来自TACC做出了一个关键的差异我们COVID-19确定新的治疗选择的能力,”史蒂文斯说。“进入TACC计算资源和专长使我们扩大研究协作应用先进计算今天的最大挑战之一”。
项目支持TACC赞美流行病学和遗传研究努力,使30多个团队进行研究,否则不会被时间这个危机需要切实可行的目标。
“在全球的时候需要这样,是很重要的,我们不仅把我们所有的资源来承担,但我们这样做的最创新的方法,”执行理事TACC说丹Stanzione。“我们旋转的许多资源向关键研究对抗COVID-19,但支持新的人工智能方法在这个项目给了我们机会更有效地使用这些资源。”