机器学习模型(例如语音识别)通常被训练以最小化平均损失为目标,这会使表示差异的少数群体(例如非母语人士)对训练目标的贡献较小,因此往往导致更大的损失。更糟糕的是,由于模型的准确性会影响用户的保留,少数群体会随着时间的推移而缩小。
本文首先指出,经验风险最小化(ERM)的现状随着时间的推移会扩大代表差异,甚至会使最初的公平模型变得不公平。为了缓解这一问题,我们开发了一种基于分布鲁棒优化(DRO)的方法,该方法最大限度地降低了经验分布附近所有分布的最坏情况风险。本文证明了,这种方法在控制少数群体风险的每一个时间步骤中,本着罗尔斯分布正义的精神,同时保持对群体身份的遗忘。我们证明,DRO在ERM失败的例子中可以防止差异放大,并在现实文本自动完成任务中显示少数群体用户满意度的改善。
考虑部署到数百万用户的语音识别器。最先进的语音识别器实现了较高的整体准确性,但众所周知,此类系统在少数民族口音上存在系统性的错误(Amodei等人,2016年)。我们将整体精度高但少数民族精度低的现象称为代表性差异,这是平均损失优化的结果。这种代表性差异形成了我们对不公平的定义,在人脸识别(Grother等人,2011年)、语言识别(Blodgett,2016年;Jurgens,2017年)、依赖性分析(Blodgett等人,2016年)、部分语音标记(Hovy和Sgaard,2015年)、Academ中都有观察到,以及IC推荐系统(Sapiezynski等人,2017年)和自动视频字幕(Tatman,2017年)。
更重要的是,少数错误率较高的用户将不再喜欢这个系统,更可能停止使用系统,从而不再向系统提供数据。因此,少数群体将缩小,并可能在未来的时间段内遭受来自再培训模型的更高错误率。我们在预测性警务(Fuster等人,2017年)和信贷市场(Fuster等人,2017年)中观察到了机器学习驱动的反馈循环,这种差异放大问题在任何部署的机器学习系统中都可能存在,这些系统都会对用户数据进行再训练。
本文的目的是通过时间来缓解差异问题并将其放大。我们将重点关注以下设置:在每个时间步骤中,每个用户都与当前模型进行交互,并产生一些损失,根据这些损失,用户决定保留或退出使用服务。在下一个时间步骤中,将对生成的用户数据对模型进行训练。我们假设每个用户来自K组中的一个,我们的目标是将任何组的最坏情况风险随时间降低到最低。然而,由于真实的在线服务中可能缺少完整的人口统计信息,因此,K组的成员和数量都是未知的。
我们首先证明经验风险最小化(ERM)不能控制不同K组的最坏情况风险,并给出了ERM将最初的公平模型变为不公平的例子。为了解决这个问题,我们建议使用分布式鲁棒优化(DRO)。给出了最小组比例的下界,我们证明了在适当的卡方发散球上优化最坏情况风险是组的最坏情况风险。该方法计算效率高,可作为对随机梯度下降法训练的宽类机器学习模型的一个小修改。我们证明,DRO成功地解决了ERM变得不公平的例子,并且在基于Amazon Mechanical Turk的自动完成任务上证明了较高的平均少数用户满意度和较低的差异放大。
我们首先概述了动机的两个部分:表示差异和差异放大。
差异表示:
考虑到标准的损失最小化设置,用户的查询为Z~P,模型为θ∈Θ来做预测,用户发生损失了l(θ;Z)。我们将预测的损失表示为风险R(θ),假设观察结果Z产生于k个潜在的组。并且我们假设人口比例和群体分布都是未知的。目标是控制所有K组的最坏情况风险:
差异放大:
为了理解差异随时间的扩大,我们将对用户对观察到的损失的反应行为作出若干假设。这些假设主要是为了解释清楚,我们将在假设可以放宽时指出,将概括保留到补充部分。简而言之,只要损失越小,用户保留率越高,将最坏情况下的风险降至最低,Rmax(θ)就可以减小差异放大。
差异放大
拟合一系列模型θ的标准方法是最小化每个时间段内人口风险的经验近似值。在这一部分中,我们表明,即使最小化人口风险也无法随着时间的推移控制少数风险,因为预期损失(平均情况)会导致差异扩大。随着时间的推移,少数群体的用户保留率下降加剧,因为一旦一个群体充分收缩,相对于其他群体,它会导致更高的损失,从而导致该群体中的样本更少。
灵感来源
考虑图中的两类分类问题,其中两个组是由高斯绘制的,最佳分类边界沿x2=0给出。假设采样分布按照定义1演变,其中v(x)=1.0-x,等于零一损失,b0=b1=n(0)0=n(0)1=1000。最初,ERM在两个边界x2>0的组上具有相似和高精度,但随着时间的推移,精度的随机波动会导致右侧集群中的样本略少。这导致了差异放大,因为ERM将以牺牲右簇为代价进一步改善左簇的损失。经过500轮,几乎没有来自正确集群的样本,因此,正确集群最终遭受高损失。
回想一下,我们的目标是控制所有组和所有时间步骤t的最坏情况风险(2)。我们将分两步进行。首先,我们证明了在一个时间步内,执行分布鲁棒优化可以控制最坏情况下的风险
。然后,我们证明这导致了组比例
的下限,从而确保了对所有时间步骤的最坏情况风险的控制。这两个步骤的结果是,作者在第4.4节中表明,作者的程序在所有时间步骤中都会减小差异放大。
实验
我们证明了DRO对我们的激励示例(图1)的有效性,以及对AmazonMechanical Turk上文本自动完成系统的人类评估。在这两种情况下,DRO都控制着最坏情况下的风险Rt max随时间的变化,并提高了少数人的保留率。
自动化任务
现在,我们在一个文本自动完成的任务上提出了一个真实的、人工的用户保留和满意度评估。这项任务包括在推特语料库中预测下一个词,推特语料库是由两个估计的人口群体(非洲裔美国人和白人美国人)构建的(Blodgett等人,2016年)。在tweet和这些群组之间有几个不同的语言模式,我们以后将它们的语言方言分别称为非裔美国英语(AAE)和标准美国英语(SAE),遵循blodgett等人的术语。(2016年)。我们的总体实验设计是测量不同人口比例(AAE;SAE)的保留率和风险,并模拟隐含的动态,因为运行一个完全在线的实验会非常昂贵。
对于ERM和DRO,我们在一个语料库上训练一组五个最大似然的bigram语言模型,总共366361条tweets,其中一部分被标记为AAE的tweets的f 2 f0:1;0:4;0:5;0:6;0:9g。这导致10个可能的自动完成系统,一个给定的机械土耳其人用户可以在一个任务分配给。
为了分别评估AAE和SAE的保留和损失,一个turk用户从保留的AAE tweets或SAE tweets中分配10条tweets,这些tweets必须使用自动完成系统增强的基于web的键盘进行复制。将一个土耳其人用户分配给一个人口统计学组,模拟了一个特定人口统计学组的用户试图使用自动完成系统来写一条tweet的情况。自动完成任务的详细信息包含在附录中。
完成任务后,要求用户填写一份调查,其中包括对任务的满意度排名从1到5,以及是否继续使用该系统的是/否问题。我们将50个用户分配给两个显示的集合类型和10个自动完成模型中的每一个,从而在自动完成模型和分配的人口统计学中产生1000个用户的反馈。
对用户是否继续使用自动完成系统的响应提供了n=366361的样本
以及每个可能的人口比例。用户满意度调查在这些相同的点上为Rk提供了一个代理。我们通过等容回归将Rk插值为2[0;1],然后使用定义1模拟用户的动态和满意度。我们通过对调查响应的引导复制来估计这些估计的可变性。
我们在图中的结果显示,由于DRO,少数人满意度和保留率都有所改善:我们将用户满意度中位数从3.7提高到4.0,保留率从0.7提高到0.85,而SAE满意度和保留率仅略有下降。隐含用户计数遵循相同的趋势,由于复合作用,组间差异较大。
相反,少数群体在DRO下的满意度和保留率较高。Turkers对长篇评论的分析表明,这可能是因为用户对该模型完成俚语的能力的评价高于普通词汇的完成程度,并且表明我们的培训损失与人类对自动完成系统的满意度之间存在轻微的不匹配。
在这篇文章中,我们主张将损失最小化视为一个分配公正问题,并指出企业风险管理经常导致差异放大和不公平。我们证明,DRO提供了少数群体风险的上限,并在实践中表现良好。我们提出的算法易于实现,并引入了分布鲁棒性,这可以看作是一个好处本身。
我们反对企业风险管理和支持少数风险最小化的论点反映了罗尔斯反对功利主义的论点,从而继承了罗尔斯分配正义的批判。这些批评的例子是关注抽象的最差群体,而不是人口群体或个人(Altham,1973年),极端风险规避(Mueller等人,1974年),以及以收益递减作为替代的功利主义(Harsanyi,1975年)。在这篇文章中,我们没有讨论关于罗尔斯正义正确性的争论(罗尔斯,2001年),而是将寻找一个合适的将损失最小化的哲学框架留给未来的工作。
我们工作中有两个悬而未决的大问题。首先,由于公平从根本上是一个因果问题,观察方法如DRO只能希望控制公平的有限方面。我们的算法的通用性也限制了其强制公平作为约束的能力,因此我们的方法不适用于高风险公平应用,如贷款分类、犯罪或入学。在这些问题上,来自DRO的隐含少数民族可能不同于已知遭受历史和社会偏见的特定人口群体。这一差距是由于DRO界限的松动(Hu等人,2018年),可以使用平滑度假设来缓解(Dwok等人,2012年)。
其次,本文提出的分布鲁棒性与传统的剔除异常样本的鲁棒性估计相悖,因为对手创建的高损失群很容易类似于少数群体。对抗性或高噪声的设置大大降低了DRO的上限,能否设计出对未知潜在群体公平且鲁棒的算法是一个悬而未决的问题。
curton 2019-11-17 15:16