给予人工智能惩罚以获得更好的诊断

给予人工智能惩罚以获得更好的诊断
告诉病人他们很健康,这可能发生在人类医生看病人的时候。当人工智能(AI)学会诊断疾病时,这种情况也会发生。但UJ的研究人员发现,对假阴性的算法进行较大的惩罚,可以获得更好的精度。这项研究发表在https://doi.org/10.1016/j.imu.2021.100690的《医学信息学解锁》杂志上。图片来源:约翰内斯堡大学Therese van Wyk的平面设计。基于Pixabay图像。

任何等待体检结果的人都知道这样一个焦虑的问题:“当我知道结果后,我的生活是否会完全改变?”如果你的检测结果呈阴性,你就会松一口气。

如今,人工智能(AI)越来越多地被用于预测危及生命的疾病。但是在获得(ML)算法要足够精确——具体来说,就是让算法正确诊断某人是否生病。

机器学习(ML)是人工智能的一个分支,算法从数据集中学习,并在这个过程中变得更聪明。“假设有一个关于一个严肃的.数据集中有90人没有这种疾病。但其中10人确实患有这种疾病,”Ibomoiye Domor Mienye博士说。Mienye是约翰内斯堡大学(UJ)的AI博士后研究员。

“举个例子,一个ML算法说90人没有这种疾病。到目前为止这是正确的。但它未能诊断出10个确实患有这种疾病的人。该算法仍然被认为有90%的准确率。”

这是因为精确度是这样定义的。但就健康结果而言,诊断这10名患者并让他们接受治疗可能是当务之急。他补充说,这可能比完全准确地判断90个没有这种疾病的人更重要。

对人工智能的惩罚

在一项发表在医学信息学解锁Mienye和孙艳霞教授展示了ML算法如何为医疗目的进行显著改进。他们使用逻辑回归、决策树、XGBoost和随机森林算法。

这些是有监督的二进制分类算法。这意味着他们只能从提供给他们的“是/否”数据集中学习。

Mienye博士和孙教授都来自UJ电气与工程科学系。研究人员在每种算法中都建立了成本敏感性。这意味着算法在告诉a时会得到更大的惩罚在数据集中他们是健康的,而不是相反的。在医学方面,算法对假阴性的惩罚比假阳性的惩罚更大。

Mienye博士和孙教授使用了糖尿病的公共学习数据集,子宫颈癌(858条记录)和慢性肾病(400条记录)。

数据集来自大型医院或医疗保健项目。在这些二元数据集中,人们要么被分类为患有疾病,要么根本没有疾病。

他们使用的算法也是二进制的。它们可以说“是的,这个人有这种病”或“不,他们没有。”他们在每个数据集上测试了所有算法,包括不考虑成本敏感性的算法和考虑成本敏感性的算法。

显著提高精度和召回率

结果清楚地表明,惩罚在这些数据集中按照预期工作。例如,对于慢性肾脏疾病,随机森林算法的精度为0.972,召回率为0.946,满分为1.000。在加入成本敏感性后,算法的精度显著提高到0.990,召回率达到完美的1.000。

对于CKD,其他三种算法的回忆率从高分提高到完美的1.000。精度为1.000意味着该算法没有在整个数据集中预测一个或多个假阳性。召回率为1.000意味着算法没有在整个数据集中预测一个或多个假阴性。

对于其他数据集,不同算法的结果是不同的。为,成本敏感随机森林和XGBoost算法从高分提高到完美的精度和召回率。然而,决策树算法改进到更高的分数,但没有达到1.000。

精确度问题

Mienye说,一般来说,算法在判断人们没有生病方面比识别生病的人更准确。这是医疗人工智能领域的一个持续挑战。

原因在于算法的学习方式。这些算法从来自大型医院或国家医疗保健计划的数据集中学习。但Mienye说,这些数据集中的大多数人都没有他们正在测试的疾病。“在一家大医院,一个人来接受慢性肾病(CKD)检测。他们的医生把他们送到那里,因为他们的一些症状是CKD症状。医生想排除CKD的可能性。事实证明,这个人并没有CKD。

“很多人都会遇到这种情况。数据集中没有CKD的人比有CKD的人多。我们称之为不平衡数据集。”

当一个算法开始从数据集中学习时,它对CKD的了解远远少于它应该了解的,并且在诊断病人时不够准确——除非算法针对不平衡进行了调整。

AI在船的另一边

米恩耶在大西洋附近的一个村庄长大,那里没有公路。“你必须从最近的城镇乘快艇去那里。乘船需要两到三个小时,”他说。最近的诊所在一个较大的城镇,在船的另一边。家乡偏远的农村环境激发了他的灵感,让他看到人工智能如何帮助那些很少或根本无法获得医疗保健的人。

他说,他村子里的一位老太太就是一个很好的例子,说明未来更先进的人工智能算法将如何发挥作用。一种成本敏感的多类ML算法可以评估她的血压、钠水平、血糖等测量数据。

如果她的数据被正确地记录在电脑上,那么从一个多类数据集中学习,未来的人工智能可以告诉临床工作人员在疾病的哪个阶段她在。然而,这种村庄场景是在未来。

与此同时,该研究的四种成本敏感性算法在数值数据集中诊断疾病时要精确得多。他们学得很快,使用的是在偏远城镇才能找到的普通电脑。


进一步探索

用于在电话交谈中检测阿尔茨海默氏症的机器学习算法

更多信息:Ibomoiye Domor Mienye等,成本敏感学习方法的性能分析与应用于不平衡医疗数据,医学信息学解锁(2021)。DOI: 10.1016 / j.imu.2021.100690
由约翰内斯堡大学提供
引用:给予人工智能惩罚以获得更好的诊断(2021年,11月1日),检索于2022年9月7日从//www.pyrotek-europe.com/news/2021-11-ai-penalties.html
这份文件受版权保护。除为私人学习或研究目的而进行的公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。
30.股票

对编辑的反馈