当机器学习模型试图对训练数据集中代表性不足的个体进行预测时,它们可能会失败。
例如,一个预测慢性病患者最佳治疗方案的模型可能会使用主要包含男性患者的数据集进行训练。该模型在医院部署时可能会对女性患者做出不正确的预测。
为了改善结果,工程师可以尝试通过删除数据点来平衡训练数据集,直到所有子组都得到平等的表示。虽然数据集平衡很有希望,但它通常需要删除大量数据,从而损害模型的整体性能。
麻省理工学院的研究人员开发了一种新技术,可以识别并删除训练数据集中导致模型在少数子群体上失败的特定点。通过删除比其他方法少得多的数据点,该技术保持了模型的整体准确性,同时提高了其在代表性不足的群体方面的性能。
此外,该技术还可以在缺乏标签的训练数据集中识别隐藏的偏差来源。在许多应用程序中,未标记数据远比标记数据普遍。
这种方法还可以与其他方法相结合,以提高在高风险情况下部署的机器学习模型的公平性。例如,有一天,它可能有助于确保未被充分代表的患者不会因为有偏见的人工智能模型而被误诊。
“许多其他试图解决这个问题的算法都假设每个数据点和其他数据点一样重要。在本文中,我们证明了这个假设是不正确的。我们的数据集中有一些特定的点会导致这种偏差,我们可以找到这些数据点,删除它们,并获得更好的性能,”麻省理工学院电子工程和计算机科学(EECS)研究生Kimia Hamidieh说,他是一篇关于这种技术的论文的共同主要作者。
她与Saachi Jain博士和EECS研究生Kristian Georgiev共同撰写了这篇论文;安德鲁·伊利亚斯(Andrew Ilyas) 18届bbbb18, 23届博士,斯坦福大学斯坦研究员;Marzyeh Ghassemi是EECS副教授,也是医学工程科学研究所和信息与决策系统实验室的成员,Aleksander Madry是麻省理工学院节奏设计系统教授。这项研究将在神经信息处理系统会议上发表。
去除坏例子
通常,机器学习模型是使用从互联网上许多来源收集的大量数据集进行训练的。这些数据集太大了,无法手工精心整理,因此它们可能包含影响模型性能的坏例子。
科学家们还知道,在某些下游任务中,一些数据点对模型性能的影响比其他数据点更大。
麻省理工学院的研究人员将这两种想法结合成一种方法,可以识别并消除这些有问题的数据点。他们试图解决一个被称为最差组错误的问题,当一个模型在训练数据集中的少数子组上表现不佳时,就会发生这种情况。
研究人员的新技术是由之前的工作推动的,他们在之前的工作中引入了一种名为TRAK的方法,该方法可以为特定的模型输出识别最重要的训练示例。
对于这项新技术,他们采用模型对少数子群体做出的错误预测,并使用TRAK来识别哪些训练示例对错误预测贡献最大。
伊利亚斯解释说:“通过以正确的方式汇总这些糟糕的测试预测信息,我们能够找到导致最差组准确率整体下降的训练的特定部分。”
然后,他们删除这些特定的样本,并在剩余的数据上重新训练模型。
由于拥有更多的数据通常会产生更好的整体表现,因此只删除导致最差群体失败的样本可以保持模型的整体准确性,同时提高其在少数子群体上的表现。
更容易理解的方法
在三个机器学习数据集上,他们的方法优于多种技术。在一个例子中,它提高了最差组的准确性,同时比传统的数据平衡方法减少了大约2万个训练样本。他们的技术也比需要改变模型内部工作原理的方法获得了更高的准确性。
因为麻省理工学院的方法涉及到改变数据集,所以它对实践者来说更容易使用,并且可以应用于许多类型的模型。
它也可以在偏差未知的情况下使用,因为训练数据集中的子组没有标记。通过识别对模型正在学习的特征贡献最大的数据点,它们可以理解模型用来进行预测的变量。
“这是任何人在训练机器学习模型时都可以使用的工具。他们可以查看这些数据点,看看它们是否符合他们试图教给模型的能力,”哈米德说。
使用这项技术来检测未知的子群体偏见需要直觉,所以研究人员希望通过未来的人体研究来验证它并更充分地探索它。
他们还希望改进其技术的性能和可靠性,并确保该方法对于有朝一日可以在实际环境中部署它的实践者来说是可访问且易于使用的。
伊利亚斯说:“当你有工具可以批判性地看待数据,并找出哪些数据点会导致偏见或其他不良行为时,你就向建立更公平、更可靠的模型迈出了第一步。”
作者:Adam Zewe b| MIT新闻
链接:https://news.mit.edu/2024/researchers-reduce-bias-ai-models-while-preserving-improving-accuracy-1211
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2024-12-31 08:46:56
Adam Zewe b| MIT新闻