研究发现,基于音频的人工智能在预测COVID-19感染方面不可靠
国王学院数学系统计学家参与的一项研究显示,人工智能无法根据某人的咳嗽声准确预测他是否感染了COVID-19。
通过分析机器学习(ML)算法检测COVID-19感染的准确性,研究人员发现,这项技术并没有改善一个只使用个人自己报告的症状和他们的症状的模型人口数据,例如年龄和性别。
作为政府大流行应对措施的一部分,受英国卫生安全局的委托,研究人员对ML算法作为COVID-19筛查工具的表现进行了独立审查,以确定人工智能分类器是否可以用作横向流动测试的潜在替代方案,后者可能更便宜、更少的环境浪费和更准确。
该项目由艾伦·图灵研究所和皇家统计学会领导,团队成员包括来自国王学院数学系的Steven Gilmour教授、Davide Pigoli博士、Vasiliki kouta博士和Kieran Baker,以及来自牛津大学、伦敦帝国理工学院和伦敦大学学院的研究人员。
该团队收集并分析了来自67842人的音频记录数据集,这些人部分是通过NHS测试与追踪计划和 REACT-1研究招募的,他们也进行了PCR测试。参与者被要求记录自己的咳嗽、呼吸和谈话。PCR检测结果显示,其中超过2.3万人的新冠病毒检测呈阳性。
然后,研究人员对这些音频录音训练了一个ML模型,并将其与人们的COVID-19检测结果进行比较。首先,在未经调整的数据分析中,人工智能分类器似乎能够高精度地预测COVID-19感染,这与之前的研究结果一致,包括麻省理工学院的研究,该研究报告称,人工智能分类器根据音频记录预测某人是否患有COVID-19的准确率高达98.5%。
然而,通过持续的分析,这项最新研究的结果揭示了一些不同的东西。
伦敦国王学院博士生、艾伦·图灵研究所研究助理基兰·贝克说:“当我们将年龄、性别和症状相同的参与者分成两组,其中只有一人患有COVID-19,并根据匹配的数据评估这些模型时,人工智能模型在准确性方面表现不佳。”
“这种准确性似乎是由于统计学中一种叫做混杂的效应。在我们的数据集中,几乎所有患有COVID-19的人都有一些症状,因此模型正在学习,如果你在音频中有症状,这就是COVID-19感染的代表,没有呼吸道症状就意味着没有COVID-19。因此,它过度诊断了COVID-19病例数量。这种混淆是由一种叫做招募偏见的现象引起的,因为测试和追踪只招募了有症状的人,所以样本不能代表整个人群,”贝克说
这些发现证明,在实际环境中,基于音频的人工智能分类器无法提高基于用户报告症状的简单预测分数。
虽然这项研究在为筛查和诊断COVID-19等疾病提供新的解决方案方面没有得到积极的结果,但研究人员能够引入新的方法来表征复杂的高维偏见,并为处理招聘偏见提出最佳实践建议。研究结果还为评估基于音频的分类器在相关实际环境中的效用提供了新的见解。
数学系主任Stephen Gilmour教授说:“这项研究及时地强调了在构建机器学习评估程序时需要谨慎,旨在产生具有代表性的性能指标。从这个案例研究中得到的关于混淆影响的重要教训延伸到人工智能的许多应用中,其中偏见通常很难发现和控制。”
贝克说:“使用这样的人工智能音频分类器的技术在未来仍然有可能发挥作用。最近的出版物显示了检测 睡眠呼吸暂停 和 的进展慢性阻塞性肺疾病(COPD) 录音。"
“但为了确保这真的像我们希望的那样工作,至关重要的是,这些模型和数据一起,经过强大的模型开发和测试。”
这篇论文发表在arXiv预印本服务器。
更多信息:Harry Coppock等人,基于音频的人工智能分类器没有显示出比简单症状检查更好的COVID-19筛查,arXiv(2022)。DOI: 10.48550 / arxiv.2212.08570