给予人工智能惩罚以获得更好的诊断
任何等待体检结果的人都知道这样一个焦虑的问题:“当我知道结果后,我的生活是否会完全改变?”如果你的检测结果呈阴性,你就会松一口气。
如今,人工智能(AI)越来越多地被用于预测危及生命的疾病。但是在获得机器学习(ML)算法要足够精确——具体来说,就是让算法正确诊断某人是否生病。
机器学习(ML)是人工智能的一个分支,算法从数据集中学习,并在这个过程中变得更聪明。“假设有一个数据集关于一个严肃的疾病.数据集中有90人没有这种疾病。但其中10人确实患有这种疾病,”Ibomoiye Domor Mienye博士说。Mienye是约翰内斯堡大学(UJ)的AI博士后研究员。
“举个例子,一个ML算法说90人没有这种疾病。到目前为止这是正确的。但它未能诊断出10个确实患有这种疾病的人。该算法仍然被认为有90%的准确率。”
这是因为精确度是这样定义的。但就健康结果而言,诊断这10名患者并让他们接受治疗可能是当务之急。他补充说,这可能比完全准确地判断90个没有这种疾病的人更重要。
对人工智能的惩罚
在一项发表在医学信息学解锁Mienye和孙艳霞教授展示了ML算法如何为医疗目的进行显著改进。他们使用逻辑回归、决策树、XGBoost和随机森林算法。
这些是有监督的二进制分类算法。这意味着他们只能从提供给他们的“是/否”数据集中学习。
Mienye博士和孙教授都来自UJ电气与工程科学系。研究人员在每种算法中都建立了成本敏感性。这意味着算法在告诉a时会得到更大的惩罚有病的人在数据集中他们是健康的,而不是相反的。在医学方面,算法对假阴性的惩罚比假阳性的惩罚更大。
Mienye博士和孙教授使用了糖尿病的公共学习数据集,乳腺癌,子宫颈癌(858条记录)和慢性肾病(400条记录)。
数据集来自大型医院或医疗保健项目。在这些二元数据集中,人们要么被分类为患有疾病,要么根本没有疾病。
他们使用的算法也是二进制的。它们可以说“是的,这个人有这种病”或“不,他们没有。”他们在每个数据集上测试了所有算法,包括不考虑成本敏感性的算法和考虑成本敏感性的算法。
显著提高精度和召回率
结果清楚地表明,惩罚在这些数据集中按照预期工作。例如,对于慢性肾脏疾病,随机森林算法的精度为0.972,召回率为0.946,满分为1.000。在加入成本敏感性后,算法的精度显著提高到0.990,召回率达到完美的1.000。
对于CKD,其他三种算法的回忆率从高分提高到完美的1.000。精度为1.000意味着该算法没有在整个数据集中预测一个或多个假阳性。召回率为1.000意味着算法没有在整个数据集中预测一个或多个假阴性。
对于其他数据集,不同算法的结果是不同的。为子宫颈癌,成本敏感随机森林和XGBoost算法从高分提高到完美的精度和召回率。然而,逻辑回归决策树算法改进到更高的分数,但没有达到1.000。
精确度问题
Mienye说,一般来说,算法在判断人们没有生病方面比识别生病的人更准确。这是医疗人工智能领域的一个持续挑战。
原因在于算法的学习方式。这些算法从来自大型医院或国家医疗保健计划的数据集中学习。但Mienye说,这些数据集中的大多数人都没有他们正在测试的疾病。“在一家大医院,一个人来接受慢性肾病(CKD)检测。他们的医生把他们送到那里,因为他们的一些症状是CKD症状。医生想排除CKD的可能性。事实证明,这个人并没有CKD。
“很多人都会遇到这种情况。数据集中没有CKD的人比有CKD的人多。我们称之为不平衡数据集。”
当一个算法开始从数据集中学习时,它对CKD的了解远远少于它应该了解的,并且在诊断病人时不够准确——除非算法针对不平衡进行了调整。
AI在船的另一边
米恩耶在大西洋附近的一个村庄长大,那里没有公路。“你必须从最近的城镇乘快艇去那里。乘船需要两到三个小时,”他说。最近的诊所在一个较大的城镇,在船的另一边。家乡偏远的农村环境激发了他的灵感,让他看到人工智能如何帮助那些很少或根本无法获得医疗保健的人。
他说,他村子里的一位老太太就是一个很好的例子,说明未来更先进的人工智能算法将如何发挥作用。一种成本敏感的多类ML算法可以评估她的血压、钠水平、血糖等测量数据。
如果她的数据被正确地记录在电脑上,那么算法从一个多类数据集中学习,未来的人工智能可以告诉临床工作人员在疾病的哪个阶段慢性肾病她在。然而,这种村庄场景是在未来。
与此同时,该研究的四种成本敏感性算法在数值数据集中诊断疾病时要精确得多。他们学得很快,使用的是在偏远城镇才能找到的普通电脑。
进一步探索