今天在BMJ在线发表的一篇评论表明,在筛查期间发现可能的乳腺癌病例的准确性方面,人类似乎仍然比技术更好。研究人员表示,目前还缺乏质量良好的证据来支持时人工智能(AI)技术取代人力放射政策筛查为乳腺癌。
乳房癌是全世界妇女和许多国家死亡的首要原因纷纷推出乳腺X线检查程序来检测和早期治疗。但检查乳房 X 线照片是否有癌症的早期迹象是放射科医生的大量重复性工作,并且会遗漏一些癌症。
先前的研究表明,人工智能系统的表现优于人类,并且可能很快会取代经验丰富的放射科医生。然而,最近对 23 项研究的审查强调了证据差距和对所用方法的担忧。
为了解决这种不确定性,英国国家筛查委员会委托华威大学的一组研究人员检查人工智能在乳房 X 线照相筛查实践中检测乳腺癌的准确性。
研究人员回顾了自 2010 年以来开展的 12 项研究,涉及瑞典、、德国、荷兰和西班牙的 131,822 名接受筛查的女性的数据。
总体而言,这 12 项研究中使用的方法质量较差,它们对欧洲或英国乳腺癌筛查计划的适用性较低。
三项涉及 79,910 名女性的大型研究将 AI 系统与原始放射科医生的临床决策进行了比较。其中,1,878 人在筛查后的 12 个月内筛查检测到癌症或间期癌症(在常规筛查预约之间诊断出癌症)。
在这三项研究中评估的人工智能系统中的大多数(36 个中的 34 个或 94%)不如单个放射科医生准确,并且都比两个或多个放射科医生的共识准确,这是欧洲的标准做法。
相比之下,涉及 1,086 名女性的五项较小的研究报告称,所有评估的人工智能系统都比单个放射科医生更准确。但研究人员指出,这些研究存在较高的偏倚风险,而且它们有希望的结果无法在更大的研究中得到复制。
在三项研究中,人工智能用作预筛选,以对哪些乳房 X 光照片需要由放射科医生检查,哪些没有筛选出 53%、45% 和 50% 的低风险女性,但也筛选出了 10%、4%、和 0% 的放射科医生检测到的癌症。
作者指出了一些研究局限性,例如排除可能包含相关证据的非英语研究,并且他们承认人工智能算法是短暂的并且不断改进,因此报告的人工智能系统评估可能在研究时已经过时出版物。
然而,使用严格的研究纳入标准以及对研究质量的严格和系统评估表明他们的结论是可靠的。
因此,他们说:“目前关于在乳腺癌筛查中使用人工智能系统的证据,距离其在临床实践中实施所需的质量和数量还有很长的路要走。”
他们补充说:“需要在大型筛查人群中精心设计的比较测试准确性研究、随机对照试验和队列研究,在临床实践中与放射科医生结合评估商用人工智能系统。”