第一生活网

机器学习模型的解释方法效果如何

卢羽堂
导读 想象一个医生团队使用神经网络在乳房 X 光照片中检测癌症。即使这种机器学习模型似乎表现良好,它也可能专注于与肿瘤意外相关的图像特征

想象一个医生团队使用神经网络在乳房 X 光照片中检测癌症。即使这种机器学习模型似乎表现良好,它也可能专注于与肿瘤意外相关的图像特征,如水印或时间戳,而不是肿瘤的实际迹象。

为了测试这些模型,研究人员使用“特征归因方法”,这种技术应该告诉他们图像的哪些部分对神经网络的预测最重要。但是,如果归因方法遗漏了对模型很重要的特征怎么办?由于研究人员不知道从哪些特征开始是重要的,因此他们无法知道他们的评估方法是无效的。

为了帮助解决这个问题,麻省理工学院的研究人员设计了一个修改原始数据的过程,以便他们确定哪些特征对模型实际上很重要。然后他们使用这个修改后的数据集来评估特征归因方法是否可以正确识别这些重要特征。

他们发现,即使是最流行的方法也经常会遗漏图像中的重要特征,并且有些方法几乎无法像随机基线那样执行。这可能会产生重大影响,特别是如果将神经网络应用于医疗诊断等高风险情况。如果网络不能正常工作,并且试图捕捉此类异常的尝试也不能正常工作,人类专家可能不知道他们被错误模型误导,主要作者、电气工程和计算机科学研究生 Yilun Zhou 解释说在计算机科学和人工智能实验室(CSAIL)。

“所有这些方法都被广泛使用,特别是在一些真正高风险的场景中,比如通过 X 射线或 CT 扫描检测癌症。但这些特征归因方法一开始可能是错误的。它们可能会突出一些不存在的东西” t 对应于模型用来进行预测的真实特征,我们发现这种情况经常发生。如果你想使用这些特征归因方法来证明模型工作正常,你最好确保特征归因方法本身首先是正常工作的,”他说。

Zhou 与 EECS 研究生 Serena Booth、微软研究院研究员 Marco Tulio Ribeiro 和资深作者 Julie Shah 共同撰写了这篇论文,后者是麻省理工学院航空航天学教授和 CSAIL 交互式机器人组主任。