生物信息学:在前沿,在幕后
生物信息学本质上是一项跨学科的努力,它将沃森和克里克等先驱所预示的分子生物学革命与计算机科学的进步结合在一起,这些进步将以前无法想象的能力放到了我们的指尖。由于生物信息学的协作性质,我和我的同事在A*STAR生物信息学研究所(BII)研究从序列分析到图像处理的所有内容,与学术、临床和工业合作伙伴合作。
然而,在目前的COVID-19大流行期间,生物信息学的协同作用表现得最为明显。在大流行的头六个月里,已有1500多万人感染,50多万人不幸失去了生命。在不确定性和动荡中,生物信息学家一直站在支持急需的诊断和药物再利用的发展的前沿,以及在幕后仔细监测病毒用于潜在危险突变的基因组和追踪病毒进化研究并帮助遏制传播。
从序列到测试套件
2019年12月底,我们首次听到一种不寻常的病毒性肺炎在武汉传播的报告。在传染病领域,这通常不值得关注;专家们总是在寻找“下一个大地震”,但大多数时候,结果是什么都没有。然而,这一次确实进展得进一步,到1月的第二周,中国当局告知世界,它是由一种冠状病毒引起的,与导致严重急性呼吸系统综合征(SARS)和中东呼吸综合征(MERS)的病毒属相同。我们立即注意到了这一点,并很快得到了全球共享所有流感数据倡议(GISAID)的同事们的号召,要求我们采取行动。
最初设计用来快速传播关于流感病毒受影响国家呼吁GISAID提供其以独特分享机制而闻名的平台,以便各国以前所未有的速度分享其病毒序列。这一切都始于三个中国实验室的五个基因组。
在后来被称为SARS-CoV-2的病毒序列被公开的第一刻,我们并没有意识到我们正在面对的是一种前所未有的大疫情。相反,随着病例攀升到数百例,然后是数千例,从武汉蔓延到中国其他城市,人们逐渐意识到这一点。
从平均每天3到4个新序列,提交的数量迅速上升到每天数百个,我们很快必须建立一个更健壮的数据库来存储每个序列的所有30个碱基对,以及重要的元数据,如病毒在哪里被隔离和采样时间。GISAID可以依靠世界各地的程序员和科学家,不分昼夜地工作数周或数月。为了应对蜂拥而至的基因组,我们还必须调整处理蜂拥而至基因组的程序,并迅速发展计算工具因此,我在新加坡A*STAR BII和基因组研究所(GIS)的同事开发了一种软件工具,允许我们自动标记基因组的问题,如非法字符,以及根据报道的质量将它们分类。法国巴斯德研究所的同事改进了元数据的检查,巴西和阿根廷的同事也加入了我们多达50人的团队,在这个巨大的管理努力中,能够在每天的每个小时响应,覆盖所有时区。截至2020年7月,GISAID数据库有超过6万个序列,而且这个数字还在每天增长。
尽管追踪SARS-CoV-2序列的差异可以让我们深入了解病毒可能来自哪里以及它如何随着时间的推移进化,但每个人在为病毒做准备时必须采取的第一个行动点是开发准确和可靠的诊断试剂盒。我在实验药物开发中心(EDDC)的A*STAR同事Masafumi Inoue博士和Tan Tock Seng医院的Timothy Barkham博士立即开始着手工作。在诊断开发(DxD)中心首席执行官Sidney Yee博士和整个A*STAR生态系统的协助下,我们能够在2月的第一周推出Fortitude定量逆转录聚合酶链反应(qRT-PCR)诊断试剂盒。
为了开发“坚韧”病毒,我们不仅需要访问一个基因组,还需要参考多个基因组——从这次爆发的病毒相对于以前的病毒——以确定一个区域,该区域不仅是新病毒特有的,而且是相对稳定的,以便在当前所有爆发的毒株中都是常见的。这就是生物信息学产生深远影响的地方:它不仅使我们能够快速地在基因组的数千个碱基之间进行比较,而且它还继续帮助我们理解持续不断的序列流,以便我们能够确保诊断试剂盒在病毒突变时仍能继续工作。
除了诊断之外,一旦你有了基因组测序,你还可以用它来预测药物靶点,并开始在硅片中筛选现有药物,极大地加快了寻找急需的治疗方法的速度。
突变的意义
除了解决对诊断和药物的迫切需求,以及在第一线推动疫苗开发之外,生物信息学在帮助我们了解病毒如何变异方面也发挥着关键作用。首先,我想强调的是,突变是正常的,特别是像SARS-CoV-2这样的RNA病毒,它们在复制时自然会出错,产生不完美的自我复制。但是,仅仅因为病毒在变异,并不一定意味着它更危险。
其次,大多数突变都很小,要么对病毒有害,要么根本没有影响。打个比方,如果整个病毒基因组就像一辆车,变异的病毒会是同一辆车,同样的颜色,只有微小的区别,比如车牌上的一个字母的区别。就像车牌的这种变化不会影响汽车的性能或使其更省油一样,这些突变并不意味着病毒的毒性变得更强或更弱。
然而,这个“更改过的车牌”可以告诉我们这辆车的来源和注册时间。同样,突变可以让我们了解不同的病毒“汽车”之间是如何相互关联的,这是我们随后可以用于接触者追踪的信息。
在非常罕见的情况下,可能会有突变真的改变了病毒的性能和适应度,这通常需要多个步骤。例如,人们认为SARS-CoV-2进化过程中的一组突变赋予了它从蝙蝠或穿山甲等动物跳到人类宿主的能力。
借助GISAID等平台以及生物信息学的现代工具实现的实时基因组监测,我们可以在这些罕见变化发生时迅速检测到它们,并判断它们是否会影响诊断、治疗或增加毒性。例如,在欧洲引起疫情爆发的病毒已经进化到与原始毒株略有不同的程度,以至于中国同事最初根据第一次疫情爆发的基因组开发的RT-PCR试剂盒无法很好地检测到它。我们一看到这种变化,就通知了我们的同事,有了这些信息,他们能够迅速改变他们的方案,随后也能够完全检测到欧洲的新毒株。
随着抗击SARS-CoV-2的战斗继续在全球展开,世界各地的生物信息学家正在与这种不断进化的病毒赛跑。通过跟踪它的基因组进化,我们希望赶上它,有时甚至领先一步。