第一生活网

3月4日AI 机器学习模型能否克服有偏见的数据集

禄佳永
导读 研究人员报告说,模型的泛化能力受数据多样性和模型训练方式的影响。人工智能系统可能能够快速完成任务,但这并不意味着它们总是公平地完成

研究人员报告说,模型的泛化能力受数据多样性和模型训练方式的影响。

人工智能系统可能能够快速完成任务,但这并不意味着它们总是公平地完成任务。如果用于训练机器学习模型的数据集包含有偏差的数据,那么系统在实践中做出决策时可能会表现出同样的偏差。

麻省理工学院的一组研究人员与哈佛大学和富士通有限公司的研究人员合作,试图了解机器学习模型何时以及如何能够克服这种数据集偏差。他们使用神经科学的一种方法来研究训练数据如何影响人工神经网络是否能够学会识别它以前从未见过的物体。神经网络是一种机器学习模型,它以包含处理数据的互连节点或“神经元”层的方式模仿人脑。

如果研究人员正在训练模型以对图像中的汽车进行分类,他们希望该模型能够了解不同汽车的外观。但是,如果训练数据集中的每一个福特雷鸟都是从正面显示的,那么当训练模型得到一张从侧面拍摄的福特雷鸟图像时,即使它是在数百万张汽车照片上训练的,它也可能会对其进行错误分类。学分:图片由研究人员提供

新结果表明,训练数据的多样性对神经网络是否能够克服偏差有重大影响,但同时数据集的多样性会降低网络的性能。他们还表明,神经网络是如何训练的,以及在训练过程中出现的特定类型的神经元,可以在它是否能够克服有偏见的数据集方面发挥重要作用。