2021年3月5日

从电子病历中自动提取药物不良反应

病人的电子健康记录传达了重要的信息。对这些记录应用自然语言处理技术可能是提取信息的有效手段，这些信息可以改善临床决策、临床记录和计费、疾病预测和药物不良反应的检测。药物不良反应是一个主要的健康问题，导致成千上万的病人再次入院，甚至死亡。自动检测系统可以突出显示文件中的反应，总结它们并自动报告它们。

在这种情况下，巴苏托大学医院和Galdakao医院“有兴趣创建一个使用自然语言处理技术来分析患者的系统健康同时拥有计算机科学博士学位的工程师Sara Santiso解释道。在医院与UPV/EHU的IXA小组取得联系后，几名研究人员开始致力于建立一个健壮的模型，该模型基于临床文本挖掘，从西班牙语书写的电子健康记录中提取药物不良反应。

为此，“我们不仅使用了基于传统机器学习算法的技术，还进行了探索深度学习技术该研究的作者之一Santiso解释说:“我们得出的结论是，这些方法能够更好地检测不良反应。”机器学习和深度学习模仿人类大脑的学习方式，尽管它们使用不同类型的算法来做到这一点。

难以找到西班牙语语料库

Santiso强调了团队在试图寻找足够大的语料库时遇到的困难:“一开始，我们只从一些健康记录开始，因为它们很难获得隐私问题；为了与他们合作，你必须签署保密协议，”她解释道。研究团队发现，“拥有更大的语料库有助于系统更有效地学习其中包含的示例，从而产生更好的结果。”

通过这项以西班牙语撰写的健康记录进行的研究，“我们正在为缩小英语临床文本挖掘与其他语言临床文本挖掘之间的差距做出贡献，后者占该领域发表的所有论文的不到5%。事实上，由于从其他医院和其他语言提取信息的潜力，临床信息的提取还没有完全开发出来，”研究人员声称。

虽然自然语言处理在计算机辅助检测中有不可估量的帮助药物不良反应在美国，仍有改进的空间:“迄今为止，系统往往专注于检测位于同一句话中的药物-疾病对。然而，健康记录包含可能揭示潜在关系的隐含信息(例如，关于前因的信息可能与确定不良事件的原因相关)。换句话说，未来的研究应该努力检测明确和隐含的句间关系。”此外，另一个应该成为未来研究主题的问题是缺乏电子健康记录用西班牙语写的。