研究人员开发了一种新方法来识别复杂的医学关系
来自退伍军人事务部、橡树岭国家实验室、哈佛大学陈曾熙公共卫生学院、哈佛医学院和布里格姆妇女医院的一组研究人员开发了一种基于机器学习的新颖技术,可以使用多个医疗保健提供者的电子健康记录数据探索和识别医学概念之间的关系。
该方法被称为通过稀疏嵌入回归进行知识提取,或KESER,最近发表在数字医学.该过程集成了来自两大机构的电子健康记录数据——VA和波士顿的Partners医疗保健——并提供自动特征选择,从而导致表型识别算法和知识发现。
“KESER为临床知识之间的关系提供了一个高层次的视角,这是我们在个人或群体层面上护理患者时无法总是看到的,”Katherine Liao博士说,她是VA波士顿KESER的首席研究员,也是哈佛医学院的医学副教授。“我们期待着将这项研究的方法和结果从临床研究的应用转化为临床护理的进步。”
该项目是表型组学核心工作的一部分,由博士指导。根据VA研究与发展办公室的MVP网站,来自VA波士顿和哈佛的Kelly Cho和Mike Gaziano在VA的百万退伍军人计划(MVP)下工作,这是一个“研究基因、生活方式和军事暴露如何影响健康和疾病的国家研究项目”。
2016年,ORNL开始与弗吉尼亚州就MVP- champion展开合作,这是MVP计划下的一项大数据计划,旨在创建一个大型精准医疗平台,以承载弗吉尼亚州庞大的医疗记录数据集其中包括约2400万退伍军人的记录。为了加强跨领域创新,支持VA- doe联合项目下的众多研究项目,ORNL与VA波士顿和哈佛的MVP数据核心密切合作,以确定具体的研究领域。其中包括努力回答以下问题:我们需要在电子健康记录中找到哪些元素才能正确识别给定的表型?
他们认为这是美国用于这类研究的最大的医疗保健数据队列,该团队开始自动化识别表型关系,同时提供对潜在机器学习假设和决策过程的可见性。
为了做到这一点,他们设计并构建了四步KESER方法:将数据转换为结构化格式,构建每个数据的低维向量表示医学的代码,选择特征来属性重要性,并将属性关系映射为网络.
数据处理和表示学习
ORNL在处理和构建各种医疗数据(患者程序、诊断和测量,以及医生笔记、处方信息等)的繁琐而重要的工作中发挥了关键作用,这些数据来自VA和合作伙伴医疗保健的数百万患者。
ORNL人工智能系统部门负责人、mvp冠军项目首席研究员Edmon Begoli表示:“在得到可以用于统计方法的结构化信息之前,需要进行大量的非结构化数据处理。”“该团队花了数年时间研究这些数据,使其达到可以开始用于研究的状态。”
通过处理后的数据,团队构建了一个共出现矩阵,其中包含超过100,000种类型的事件或医疗保健代码——本质上是一个庞大但稀疏的数据表,每个可能的医疗保健代码都有一行和一列。两个事件之间的每一次同时发生都有助于对给定的表型进行更清晰、更详细的描述。
利用ORNL的大数据基础设施和科学计算方面的专业知识(在处理这种规模的数据时必不可少),该团队致力于将数据预处理自动化,并使该过程公开可用。
ORNL研究科学家、该项目的首席数据工程师埃弗雷特·拉什(Everett Rush)说:“研究人员或机构可以下载代码,以正确的格式存储他们的数据,我们的流程将完成所有必要的步骤,将他们的数据与其他所有人的数据集成起来。”
研究团队在整个项目中都非常小心地保护了患者的隐私。该小组在ORNL的安全受保护的健康数据基础设施内处理了VA的所有数据。在将其进行匿名总结后,他们将其与哈佛大学和其他合作者分享。由此产生的KESER矩阵不保留与个别患者的联系。
ORNL高级解决方案工程师达拉斯·萨卡(Dallas Sacca)说:“没有办法从最终结果追溯到单个患者,因为这些都是集合体。”Sacca在ORNL管理受保护的健康数据飞地,并在允许数据离开飞地之前审查每条数据,以确保其符合HIPAA去识别指南。
知识提取
该矩阵充满了关于这一庞大患者群体的匿名信息,可以使用不同的方法进行探测,例如KESER,以获得对人类健康的新见解。利用一系列现代统计方法,该团队将汇总数据转换为向量,调整了一个编码每个向量相关性的模型,并提取了每种表型的最重要特征和特征权重。
ORNL高级研究科学家、mvp冠军项目的首席统计学家George Ostrouchov说:“这些统计方法,包括用于协方差结构稀疏建模的高斯图形模型,特别擅长于揭示潜在因果关系的重要性归因,这是深度学习等经典人工智能技术往往难以解决的概念。”
在使用KESER方法后,该团队选择了8个表型包括抑郁症、类风湿关节炎和溃疡性结肠炎。利用KESER选择的特征,他们训练模型来识别感兴趣的表型。
未来的研究
KESER的匿名化、整合和分析来自多个医疗机构的数据的新能力带来的可能性似乎是无限的。
哈佛医学院生物医学信息学教授、KESER的首席研究员Tianxi Cai说:“我们很高兴有一种高度可扩展的方法,可以处理比我们现在工作的矩阵大一个数量级的矩阵。”
该团队已经在知识图谱中加入了更多的临床描述符。此外,该团队已经开始探索知识图谱,以更好地了解新出现的疾病。
杜克大学助理教授洪川说:“例如,在像COVID这样的情况下,每个人都需要共享数据,我们需要开始调查与这种特定疾病相关的所有不同的事情,你可能能够用这个系统做到这一点。”洪川去年在哈佛大学担任讲师时领导了KESER项目的研究。“它基本上是即插即用的;你进入数据仓库,遵循四步流程,直接整合你的结果。”
未来合作和发现的潜力可能是该项目最大的成功。该团队在报告中写道:“这一创新将促进多中心合作。自然,“并使该领域更接近于创建跨机构学习的分布式网络,同时维护患者隐私的承诺。”