癌症中条件特异性基因共表达模式
美国克莱姆森大学(Clemson University)的一名教授、一名校友、一名前IT工作人员和两名学生发布了一种计算机软件,可以对基因进行分类,以更好地了解它们是如何相互作用导致疾病的。发表在杂志上科学报告今年8月,该软件将帮助研究人员检查由多个基因控制的复杂性状。
知识独立网络构建(KINC)是一种知识独立网络构建方法软件这个包装是遗传和生物化学系亚历克斯·费尔图斯教授多年研究的成果。Feltus以前的研究生Stephen Ficklin,现在是华盛顿州立大学的助理教授,开发了这个软件。本科生和研究生研究人员Leland Dunwoodie和Will Poehlman与CCIT工作人员Kim Roche(目前是杜克大学的博士生)一起编译和分析数据。
通过从癌症基因组图谱(一个与33种不同类型癌症相关的基因组信息的公共存储库)中提取2000多个肿瘤基因表达数据集,该团队能够从统计上和视觉上组织这些数据基因基于它们共享的功能。
“我们的想法是,如果两个基因同时开启,它们可能会一起工作,”费尔图斯说。“所以我们编织了一个相互作用的基因网络,我们实际上可以找到5个,20个,有时是数千个基因,它们的表达水平必须一起上升和下降。然后我们能做的就是说,‘这些基因包在做什么?’”
有了KINC软件,研究人员不需要事先知道基因网络应该是什么样子,因为软件将运行数据来确定基因应该如何分类。这种知识独立的方法减少了“噪音”的数量——来自实验室协议或细胞之间的自然变异——可以防止遗传相互作用被发现。
费尔图斯说:“有时,软件会将样本按相同类型的肿瘤分组,对我们来说,是甲状腺、膀胱、卵巢和两种脑肿瘤:胶质瘤和胶质母细胞瘤。”“但有时,对于每对基因,软件会查看它们在不同样本组中的相互关系。也许你会发现这两个基因只在甲状腺癌中相互作用,所以它们更有可能是甲状腺癌特异性基因相互作用。但该软件还可以通过识别早期肿瘤、晚期肿瘤、男性肿瘤、女性肿瘤甚至种族之间的相互作用来确定肿瘤的具体级别。”
一旦KINC将基因分类,研究人员就可以进行更深入的统计测试,以揭示基因和体内细胞通路之间的相关性。在由此产生的基因共表达网络(GCN)中,两个极有可能相互作用的基因将由一条称为边的线连接起来。
在基因网络的构建中并不罕见,这往往有大量的数据集,该团队的案例研究导致了一个具有如此多基因相互作用的GCN -如此多的边缘-它像一个毛球。
“在科学领域,我们总是试图将一个系统简化为一两个变量。但使用生物信息学,我们将数十万个变量减少到数百个,”Feltus说。“我们接受了系统的复杂性,但我们希望它通过消除噪音而变得有意义。”
为了处理和分析这些复杂的基因组数据,生物信息学领域需要高速、大规模的计算能力。考虑到仅仅一个实验就产生了700tb的数据——足以装满700多台笔记本电脑的数据文件——这就很容易理解为什么生物信息学和超级计算是齐头并进的。
幸运的是,克莱姆森大学拥有位于彭德尔顿的棕榈集群,这是世界上排名前100的超级计算机之一。因为它是在一个民主化的共管模式系统上运行的,任何克莱姆森大学的教职员工或学生都可以注册一个账户并免费使用超级计算机。但考虑到它被这么多人共享,该团队的癌症研究可用的存储空间是有限的。
“与传统的共表达分析相比,运行我们的KINC软件是一个巨大的计算挑战,”Poehlman说。“我们很快意识到,仅使用克莱姆森大学的超级计算机无法在合理的时间内产生结果,所以我花了大量时间与开放科学网格合作,开发工作流程,使我们能够利用全国各地的计算资源来完成这个实验。”
KINC的开发是Feltus和电气与计算机工程系的同事Melissa Smith进行的一项名为“大规模科学数据分析”(SciDAS)的更广泛调查的一部分。在295万美元国家科学基金会的资助下,该团队打算建立一个国家计算系统,以提高数据处理的效率。
“有了SciDAS,我们现在通过一个超级计算机,并通过先进的网络将一个新的超级计算机映射到它,从而动态地生成超级计算机,我们使用KINC作为一种处理来自许多许多物种的数据的方式。然后,我们把数据放到分布式计算机系统中,为人们提供了处理这些大型数据集的能力。”
Dunwoodie在进行团队研究时发现了22个胶质母细胞瘤特有的基因,他说他很荣幸能将KINC算法与癌症生物学联系起来。他目前正在准备一篇论文,分析这些基因如何影响胶质母细胞瘤的发展。
该团队的软件是免费的,对公众开放。那些下载KINC的人甚至可以修改它的代码来满足他们的研究需要,只要他们把修改后的版本也公开提供。
更多信息:Stephen P. Ficklin等人。使用高斯混合模型发现条件特异性基因共表达模式:癌症案例研究,科学报告(2017)。DOI: 10.1038 / s41598 - 017 - 09094 - 4