新统计方法缓解数据再现危机

统计数据
资料来源:CC0 Public Domain

科学研究的可重复性危机正在持续,许多研究可能难以或不可能复制并因此验证,特别是当研究涉及非常大的样本量时。例如,为了评估一项高通量遗传研究结果的有效性,科学家必须能够复制该研究并获得相同的结果。现在宾夕法尼亚州立大学和明尼苏达大学的研究人员开发了一种统计工具,可以准确地估计一项研究的可重复性,从而消除了重复工作的需要,有效地缓解了可重复性危机。

该团队使用了他们的新方法,他们在今天发表的一篇论文中描述了这种方法自然通讯,以证实2019年一项研究的结果这有助于吸烟和酗酒成瘾,但值得注意的是,它也可以应用于其他全基因组关联研究——或调查疾病遗传基础的研究。

“虽然我们将这种方法应用于研究吸烟和饮酒成瘾相关的结果,但它可能有益于其他类似的大规模联合研究,包括目前关于宿主遗传对COVID-19症状的贡献的研究,”公共卫生科学和生物化学副教授刘大江说宾夕法尼亚州立大学。

刘教授说,要在全基因组关联研究中检测模式,从大量个体中获取数据是很重要的。科学家通常通过结合许多现有的类似设计的研究来获得这些数据,这就是刘和他的同事在2019年吸烟和饮酒成瘾研究中所做的,该研究最终包括120万人。

刘说:“我们非常努力地收集我们可以管理的所有患者样本。”他指出,数据来自生物库、流行病学研究和23andMe等直接面向消费者的基因检测公司。然而,他补充说,由于该团队在分析中使用了所有可用的研究,因此没有剩余的研究可以用作验证的比较。他说:“我们的统计方法允许研究人员在没有复制数据集的情况下评估遗传关联信号的可复制性。”“它有助于最大限度地发挥遗传研究的力量,因为不需要保留样本用于复制;相反,所有的样本都可以用于发现。”

该团队的方法被称为MAMBA(基于可复制性的元分析模型评估),评估了被称为单核苷酸多态性(SNPs)的非典型DNA片段与成瘾等疾病特征之间关联的强度和一致性。具体来说,MAMBA计算了这样一种可能性:如果一个实验可以在不同的个体组中重复,那么snp和这些个体的特征之间的关系将与第一个实验相同或相似。

宾夕法尼亚州立大学统计学副教授李群华解释说,如果SNP与被评估的性状显著相关,并且其估计的效应大小在多个研究中一致,MAMBA就会为每个SNP分配更高的可复制性概率(PPR)。

“例如,”李说,“如果大多数吸烟成瘾的参与者都有一个特定的SNP,与不上瘾的人不同,如果这个SNP在多个较小的研究中出现在人群中,那么MAMBA会给它一个更高的PPR,这表明SNP可能在成瘾中很重要。”

研究人员通过将其应用于刘2019年关于吸烟和饮酒成瘾的研究,证明了他们方法的价值。在556个常见和低频SNP关联信号中,研究小组确定了529个PPR大于99%。在对约4300个罕见snp的扩展分析中,研究人员确定了2807个PPR大于99%的snp。

宾夕法尼亚州立大学公共健康科学助理教授Bibo Jiang说:“有趣的是,我们发现某些已知负责脂质代谢的基因也会影响吸烟成瘾。”他指出,这种现象被称为多效性,即一个基因影响两个看似无关的特征。“如果我们想设计针对这些基因的药物来帮助人们戒烟,我们应该注意与之相关的任何潜在疾病比如高胆固醇。”

刘指出,该方法可以应用于专注于各种各样的特征。“我认为在未来十年左右,生物学的一个基本焦点将是解释和理解这些全基因组关联研究的发现,以及我们是否可以将其中一些转化为药物,以促进个性化医疗,”他说。“我们很高兴能够为研究界提供这种统计方法。”


进一步探索

一项新研究表明,冒险者更容易吸烟和使用电子烟

更多信息: 自然通讯(2021)。DOI: 10.1038 / s41467 - 021 - 21226 - z
期刊信息: 自然通讯

引用:新的统计方法缓解了数据可重复性危机(2021年3月30日),检索自2021年6月11日//www.pyrotek-europe.com/news/2021-03-statistical-method-eases-crisis.html
这份文件受版权保护。除为私人学习或研究目的而进行的公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。
46股票

对编辑的反馈

用户评论