机器学习预测器已成功部署在从疾病诊断,信用评分预测到图像识别的各种应用中。虽然总体准确性很高,但预测也通常会产生系统性偏差,从而损害特定的人群,特别是对于训练数据中少数群体的子群。我们开发了一个严格的多准则审计和后处理框架,以提高可识别子群体的预测准确性。我们的算法MULTIACCURACY BOOST适用于我们以黑盒形式访问预测器以及用于审计的数据集相对较小的背景。我们证明了算法必定收敛,并证明它提高了每一步的整体精度。重要的是,如果初始模型在可识别的子群上是准确的,那么后处理的模型也将是。我们证明了这种方法在图像分类,金融和人口健康方面的多种应用的有效性。即使在算法不知道敏感特征(例如种族,性别)时,MULTIACCURACY BOOST也可以改善子群体的准确性(例如对于“黑人女性”)。
尽管机器学习在涉及对人进行预测的复杂任务中取得了成功,但越来越多的证据表明,“最先进的”模型在少数人群中的表现要明显低于大多数人群。事实上,一项名为“性别阴影”项目针对三个商业人脸识别系统的著名研究表明,在分类任务中,不同人群之间存在显着的效率差距。虽然所有系统在一个流行的基准测试中在性别检测上达到了大约90%的准确度,但仔细研究发现,与男性相比,女性受试者准确度低,深色皮肤受试者的系统准确度明显低于浅色皮肤受试者。更糟糕的是,当将深色皮肤的女性与浅肤色男性进行比较时,这些组之间的分类准确度差异高达34%!
解决这一严重问题的一种方法是更新训练数据的分布以反映人员的分布情况,确保在训练数据中充分代表以前代表性不足的人群。虽然这种方法可能被视为最终目标,但往往出于历史和社会原因,某些少数民族人口的数据比大多数人口的数据要少。特别是,我们可能无法立即从这些代表性不足的群体获得足够的数据来训练复杂的模型。另外,即使有足够的代表性数据可用,该过程也需要重新训练基础预测模型。在将学习模型作为服务提供的背景中,如商业图像识别系统,可能没有足够的动力(经济,社会等)使服务提供商重新训练模型。尽管如此,模型的用户可能希望提高整个群体中预测结果的准确性,即使他们不了解预测系统的内部工作情况。
在高层次上,我们的工作重点在这样一个背景下,这在实践中是常见的,但与其他许多关于分类公平性的文献不同。我们对分类器f0进行黑盒访问,以及从一些代表性分布D中抽取的标记样本的相对较小的“验证集”;我们的目标是审查f0,以确定预测器是否满足子群公平性和多精度的概念。多精度要求预测公平,不仅仅是整体的,而是在每个可识别的子群体上。如果审查显示预测器不满足多精度,我们的目标是对f0进行后处理,以产生一个多精度的新分类器f,但不会对f0已经准确预测的子群体产生不利影响。多精度审查不对原始分类器做出假设;特别是,它可以处理无意和恶意的歧视。
我们的贡献。 我们为多精度开发了审查和后处理预测模型的框架。我们描述了一种新算法MULTIACCURACY BOOST,其中一个简单的学习算法——审查员 ——用于识别f0系统偏置的子群。然后,该信息用于迭代地后处理f0,直到满足多精度条件——每个可识别子群中的无偏预测。我们的多精度概念不同于基于平等的公平概念,在性别检测等环境中是合理的,我们希望提高分类器在子群中的准确性。我们证明了MULTIACCURACY BOOST的收敛性,并表明多精度的后处理实际上可以提高整体分类准确性。我们在第3节中描述了后处理算法。
根据经验,我们在基于“性别阴影”的实验案例研究中验证MULTIACCURACY BOOST。我们训练初始预测模型,实现良好的整体分类误差,但表现出对少数群体的偏差。在处理之后,这些少数群体的准确度得到了提高,尽管后处理算法没有明确地将少数群体状态作为特征,但只要审查集中的特征与(未观察到的)人类类别相关联,则MULTIACCURACY BOOST可有效提高这些类别的分类准确性。
正如理论所建议的那样,通过确定初始模型中出错的子群体,实施多精度提高了整体准确性;此外,后处理不会显着影响已经有很高准确率群体的表现。我们证明了MULTIACCURACY BOOST只能将f0作为一个黑盒子进行访问,它有时甚至比具有f0全部访问权限的白盒更好。我们还证明,审查过程可能有助于理解预测模型出错的原因。具体而言,多精度审查员可用于生成使预测器明显错误的输入示例。
高级设置。设X表示输入空间;令y:X→{0,1}是将输入映射到其标签的函数。设D代表X满足的的验证集数据分布;分布D可以被视为“真实”分布,我们将在其上评估最终模型的准确性。特别地,我们假设重要的子群体在D上充分表示。我们的后处理学习器接收标记验证数据{(x,y(x))}的小样本作为输入,其中x
D,以及黑盒访问初始预测模型f0:X→[0,1]。目标是输出满足多精度公平条件的新模型(对f0的调用)(如下所述)。
重要的是,我们对f0没有进一步的假设。通常,我们会将f0视为学习算法的输出,在一些其他分布D0上训练(X也满足);在这种情况下,我们的目标是减轻任何无意中学到的偏差。也就是说,另一个重要的设定是假设f0被选择用于对抗对受保护的群体的歧视,同时使整体看起来准确和公平;在这里,我们的目标是保护子群免受恶意错误分类。多精度为防止这两种歧视提供了有意义的保护。
附加概念。对于子集S⊆X,我们使用x~S来表示来自D的样本以S中的隶属关系。如果x∈S则将S的特征函数取为χS(x)= 1,否则为0。对于假设f:X→[0,1],我们表示f相对于子集S⊆X的分类误差为erS(f; y)= Prx〜S [
],其中
将f(x)舍入为{0,1}。对于函数z:X→[-1,1]和子集S⊆X,令zS是对S的限制,其中如果x∈S则zS(x)= z(x),否则zS(x)= 0。
多精度。多准确度的目标是实现低分类误差,不仅在X总体上,而且在X的子群体上。该目标在以下定义中形式化。
多准确度定义。设α≥0,C⊆[-1,1]X为X上的一类函数。f:X→[0,1]是(C,α)-多精度的,如果对于所有的c∈C:
(C,α)-多精度保证假设根据C定义的一类统计检验表现无偏。例如,我们可以用子集S⊆X的集合来定义类,将C取为χS(对于集合中的每个子集,它都是负的;在这种情况下,(C,α)——多精度保证对于每个S,f的预测最多是α偏置的。
理想情况下,我们希望将C作为所有统计测试的一类。然而,要求对于这样的C的多精度,需要精确地学习函数y(x),这在理论上是不可能从小样本中获得的。在实践中,如果我们将C视为可学习的函数类,则(C,α)-多精度保证了所有有效可识别子群体的准确性。
例如,如果我们将C作为深度为4的决策树类,那么多精度保证了无偏性,不仅仅是对种族和性别所定义的边缘种群,还是种族、性别和种族组合所定义的亚群体。特别是,多精度保护的子群体可以重叠并且包括超出传统保护群体范围的群体。
审查多精度。随着(C,α)多精度定义的完善,一个自然要问的问题是如何检验假设f是否满足定义;此外,如果f不满足(C,α)-多精度,我们能否有效地更新f以满足定义,同时保持整体精度?我们将使用学习算法A来审查分类器f的多精度。算法A从D接收小样本并且旨在学习与残余函数f-y相关的函数h。在第3节中,我们描述了如何使用这样的审计来解决后处理问题。子群公平性和学习之间的这种联系也在中进行,尽管是针对不同的任务。
为了实现(C,α)-多精度,我们可以使用一种循环学习算法进行审查,该算法迭代统计测试c∈C。给定一个有效学习C类的算法A,我们可以加快审计过程;例如,如果我们将C作为线性测试的类,我们可以使用有效的线性回归算法进行审查。具体而言,在我们的实验中,我们使用脊回归和决策树回归进行审计;两个方法都能有效识别模型表现不佳的子群体。
多精度的分类准确性。多精度保证了分类器的预测在丰富的子群体上是无偏的;理想情况下,我们会在分类准确性方面声明一个保证,而不仅仅是偏差。直观地说,当我们用C来定义更丰富的测试类时,多精度的保证就变得更强。这种直觉在以下命题中形式化。
也就是说,如果C中有一个函数与一个重要的子群体S上的标签函数有强的关联,那么多精度就转化为对该子群体分类精度的保证。
数据分布评论。请注意,定义多精度时,我们对验证集的分布D取期望。理想情况下,D应反映真实的人口分布,增加受过歧视的人口的代表性;例如,命题1的分类错误随着受保护的子群S的密度γ增大而改善。例如,在我们关于性别检测的案例研究中,我们对大量不平衡数据集进行训练,然后使用为性别阴影研究收集的平衡多样性数据集进行评审。
在这里,我们描述了一种算法MULTIACCURACY BOOST,用于对预训练模型进行后处理以实现多精度。该算法被允许黑盒访问初始假设f0:X→[0,1]和由C学习出的学习算法A:(X×[-1,1])m→[-1,1]X,并且对于任何精度参数α> 0,输出f:X→[0,1],即(C,α)-多精度。后处理算法是类似于增强的迭代过程,其使用乘法权重框架来改进由审查者识别的次佳预测。这种方法类似于在公平性和伪随机背景下给出的算法。重要的是,我们调整这些算法,以便MULTIACCURACY BOOST展示我们所谓的“无害”保证;如果f0在由A标识的某个子群S⊆X上具有低分类误差,则S上产生的分类误差不会显着增加。从这个意义上说,实现我们不一定会对分类器的效用产生不利影响。
在高级别,MULTIACCURACY BOOST首先将基于初始分类器f0的输入空间X划分为X0 = {x∈X:f0(x)≤1/ 2}并且X1 = {x∈X:f0(x)>1/2};请注意,我们只需调用f0即可对X进行分区。基于f0的预测对搜索空间X进行分区有助于确保输出的f保持f0的初始精度;特别是,它允许我们仅搜索带有正面标记的示例来改进分类器。在划分输入空间之后,该过程迭代地使用学习算法A来搜索X(并且在分区X0,X1内)以找到与预测f-y中的当前残差显著相关的函数。如果A成功返回某个函数h:X→[-1,1],其标志当前假设不准确的重要子群,则算法根据h更新预测。为了同时更新所有x∈X的预测,在第t次迭代时,我们通过将ht合并到先前的模型ft中来构建ft + 1。
一算法关键是学习一个多精度的预测器,而不会过度拟合验证集的小样本。理论上,我们证明了样本复杂度的界限,这是保证作为C类函数的良好泛化所必需的,误差参数α和我们希望保护γ的子群体的大小的函数。为了保证良好的泛化,我们假设A每次迭代使用一个新的样本Dt~Dm。在实践中,当我们的样本很少时,我们可以将所有样本放在一个批次中并通过添加噪声来减少过度拟合。在实践中,我们需要平衡C的选择和算法的迭代次数,以确保审计发现真实的特征,而不是验证数据中的噪声。实际上,如果审查算法A学会了足够表达的功能,那么我们的算法将在某个时刻开始过度拟合;我们凭经验证明多精度后处理在过度拟合之前改善了泛化误差。
从停止条件可以清楚地看出,当算法终止时,fT将是(C,α)-多精度的。因此,在MULTIACCURACY BOOST终止之前,仍然需要限制迭代次数T.另外,如上所述,算法评估Ex~D [h(x)·(f(x)-y(x))]等统计量,我们可以从一个小样本中准确有效地估计。
无害。从MULTIACCURACY BOOST展示的“无害”属性中清楚地表明我们的方法与以往大多数关于公平性的工作之间的区别,正式定义为定理2。简而言之,属性保证在A审查的任何子群S ⊆X上,分类误差不能从f0到后处理分类器显著增加。正如我们假设A可以识别非常丰富的重叠集类,总的来说,此属性为结果预测变量的效用提供了强有力的保证。此外,定理2的证明表明,这种最坏情况的界限是非常悲观的,并且可以通过更强的假设来改进。因此,如果我们使用算法1对已经在验证分布上实现高精度的模型进行后处理,则得到的模型的准确性不应该以显着的方式恶化;根据经验,我们观察到在多精度后处理之后,分类精度(在保持测试集上)趋于改善。
我们的目标是复制性别阴影研究的条件以测试多精度审计和后处理对这个重要的实际例子的有效性.2对于我们的初始模型,我们训练一个使用CelebA数据集的resnet-v1性别分类模型,其中包含超过200,000张面部图像。CelebA对二元性别分类的测试结果准确率为98.4%。尽管这个f0的总体准确度很高,但与男性相比,女性的错误率要差得多,而与非黑人相比,黑人的错误率更差;这些结果非常类似于商业性别检测系统所观察到的结果。
我们使用PPB数据集应用在MULTIACCURACY BOOST,该数据集在性别和种族方面具有均衡的表现。具体来说,我们使用脊回归进行审查我们使用Facenet库在CelebA数据集上训练的变分自动编码器(VAE),而不是审核原始输入像素。PPB数据集非常小;因此,这个实验可以被视为一个压力测试,以评估我们的后处理技术的数据效率。测试集有415个人,审查集的大小为855。PPB将每个面注释为暗(D)或浅肤色(L)。
除了评估多精度方法的有效性之外,我们还将我们的后处理结果与强大的白盒基线进行比较。在这里,我们使用审查集重新训练f0的网络。具体来说,我们重新训练网络的最后两层,这在再训练方法中产生了最佳的效果。我们强调,这个基线需要白盒访问f0,而审查员是“盲目的” - 没有明确给出种族或性别,并且对f0的内部运作一无所知。
表1:PPB性别分类的结果D表示数据分布中每个群体的人口百分比;f0表示初始预测值的分类误差(%);MA表示使用MULTIACCURACY BOOST进行后处理后模型的分类误差(%);RT表示在D上重新训练后模型的分类误差(%)。
我们评估了每个子群上初始f0、多精度后处理分类器和再训练分类器的测试精度。MULTIACCURACY BOOST在5次迭代中收敛,并且大大减少了子群体之间的误差。我们报告了总体分类准确度和不同子组的准确度。我们报告了表1中每个子组的总体百分比(D),初始模型的准确度,我们的黑盒后处理模型和白盒基准 ——例如DF表示深色皮肤的女性。特别是,我们强调DF和LM的子群体;DF的分类误差明显改善,但不会显着损害LM的准确性。
多精度审计诊断。我们已经证明,对不平衡数据进行训练的模型可能对少数民族群体表现出显着的偏见。例如,黑人女性的初始分类错误很明显,而在白人男性,它接近0%。重要的是,我们能够报告这些准确性差异的唯一方法是查看包含性别和种族标签的数据集。通常,这种人口统计信息无法获得;实际上,CelebA图像没有标记种族信息,因此,我们无法评估此集合上的子群体分类准确性。因此,开发者可能面临一个问题:即使他们知道他们的模型正在犯下不良错误,也可能不清楚这些错误是否集中在特定的亚人群上。如果没有对模型表现不佳的子群体进行识别,则收集额外的训练数据实际上可能无法全面提高整体性能。
我们证明,多精度审计可以作为一种有效的诊断和解释工具,帮助开发人员识别模型中的系统偏差。这个想法很简单:审查返回一个假设h,它基本上通过f0(x)预测结果的错误来“评分”各个输入x。如果我们考虑其得分|h(x)|的大小,那么我们可以更好地理解编码器发现的偏差。我们在PPB数据集上测试这个想法,用审查返回的假设评估测试图像。
在图1中,我们根据审计员返回的第一个和第二个假设,在测试集中显示最高和最低效果(|h(x)|大并且|h(x)|≈0)的图像。在第一轮审核中,三个得分最高的图像(顶行)都是女性,黑人和白人。最不活跃的图像(第二行)是穿着西装的男人,这表明根据原始分类器f0,西装可能是一个高度预测的特征。总体而言,第一轮审计似乎将性别确定为f0中的偏差轴。在第二轮中,在分类器通过MULTIACCURACY BOOST的一步改进之后,审计似乎把“黑皮肤的女性”子群体作为偏见的区域。
在这项工作中,我们提出多精度框架用于提高黑盒预测系统的公平性。多精度框架应用广泛;重要的是,仅对f0进行黑盒访问和一小组标记的验证数据,我们就可以对任何初始模型f0进行后期处理。我们展示了在现实环境中多精度的后处理有助于减轻敏感子群中预测变量的系统偏差,即使这些子群体的标记没有被明确地审查。在我们的实验中,我们观察到标准监督学习对整体进行了优化,导致某些子群体的错误率明显降低。多精度通过提高可识别子群的准确性,为分类的公平性提供了一个框架,不会在准确性和实用性之间权衡。我们在理论和实践上证明,后处理可以作为提高重要子群体准确性的有效工具,并且不会对已经分类良好的人群造成损害。
多精度工作是使审查员可以识别原始分类器f0容易出错的特定子组。多精度的作用在于,在许多环境中,我们可以从少量审查数据中识别f0的问题。多精度审计是有限的:如果错误对于审查员来说过于复杂,那么审计员将无法识别这些错误。我们的实证结果表明,分类器错误的子群体可以有效识别。特别地,我们的实验提高了在CelebA上对PPB测试集进行训练的模型的准确性,这提出了一种轻量级的黑盒替代了更复杂的转移学习技术,这可能值得进一步研究。
curton 2019-11-17 15:15