公平机器学习这一新兴领域旨在确保以算法为指导的决策是公平的。在过去的几年里,公平性的三个正式定义变得突出起来:(1)反分类;(2)分类均等;(3)校准。在这里,我们展示了这三种公平性定义都受到了统计上的限制。要求反分类和分类均等会相反地损害到它们被设计来保护的群体本身;而校准,尽管通常是可取的,却几乎不能保证决策是公平的。与这些正式的公平性标准相反,我们认为,根据统计上最准确的风险评估,对同样有风险的人给予同样的待遇往往是可取的。这种战略虽然不普遍适用,但往往与政策目标很一致。特别是,这种战略通常既违反反分类法,又违反分类法。在实际操作中,需要做出大量努力来构建合适的风险估计。我们必须仔细地评估预测的目标,以避免数据中的偏差。通过在公平机器学习的基础上强调这些挑战,我们希望能够帮助研究人员和从业人员有成效地推进这一领域。
2 说明
在过去的几年里,研究界提出了大量正式的、数学上的不公平,以帮助从业人员设计公平的风险评估工具。特别是,三种广泛的公平性定义方式日益突出。第一种,我们称之为反分类,它规定风险评估算法在得出估计值时不考虑受保护的特征,如种族、性别或其代理人。第二种是分类均等,要求某些常见的预测性能指标在被保护属性限制的群体中是相等的。第三种是校准,要求结果是独立于保护属性后,控制估计的风险。
在追求公平的过程中排除受保护的特征是很正常的,错误率的差异可以解释为表明算法的设计或它所依据的数据存在问题。然而,令人惊讶的是我们发现以上这三种流行的方式都深受统计限制的影响,而且设计算法来满足这些缺陷将会对少数群体和多数群体的福祉产生负面影响。除了解决这些数据的潜在问题外,还必须考虑在更复杂的环境中设计和分析决策算法。然而,这种复杂性并不意味着我们所研究的公平性的流行形式能够帮助人们实现公平的结果。
随着自动化决策的日益普及,建立公平算法的必要性将会随着时间的推移而增加。因此,至关重要的是,要解决以往关于公平性的提法中的局限性,找出前进中的最佳做法,并概述重要的尚未解决的研究问题。
3 常见的数学公平性定义的局限性
1)反分类的局限性
设计表面上公平的算法的最简单方法可能是从统计模型中排除受保护的特征。此策略可确保决策不明确依赖于组成员身份。然而,美国的历史表明,即使不使用受保护的特征,明显的歧视行为也是可能的。在某种程度上,这是因为预测模型中常用的几乎每一个共变量都至少与受保护群体的状态有部分关联。在许多情况下,即使是相关性很强的共变量也可能被认为是做出决策的合法因素。
以审前累犯预测为例,在控制了典型的合法风险因素(包括犯罪历史、年龄和药物使用)之后,在许多司法管辖区,妇女再次犯罪的频率低于男子。因此,性别中立的风险评估往往夸大了妇女的累犯风险。图1说明了这一现象。通过承认性别在这一环境中的预测价值,可以制定一项决策规则,减少拘留人数(特别是女性),同时实现同样的公共安全福利。相反,如果忽视这一信息,只根据性别中立的风险评估作出决定,就会对妇女产生基于标签的歧视。

图1 男女累犯率


当性别或其他受保护的特征增加预测价值时,排除这些特征通常会导致不公正的影响;当受保护的特征不增加预测能力时,它们可以安全地从算法中删除。但在后一种情况下,如果受保护的属性不是预测性的,那么理论上可以只使用一个特定群体(例如白人)的例子来建立一个准确的风险模型。如果给出足够多的白人的例子,这个模型将会了解特征和风险之间的关系,我们的假设是,这将会推广到整个人群。这一现象突出了许多关于公平性的非正式讨论中的紧张关系,学者们主张既要提供有代表性的训练数据,又要排除受保护的属性。在现实中,典型的数据往往是最重要的,恰恰是当受保护的属性添加信息时,在这种情况下,它们的使用可以被证明是公正的。
2)分类均等的局限性
(1)风险分布
图2显示了两个不同群体的假设风险分布情况。在最左图中,两个分布有相似的差异,但方法不同;在中间图中,分布有相同的平均差异,但有不同的变化。一般来说,我们期望任何两个按种族、性别或任何其他属性划分的群体都有不同的风险分布方式和不同的差异。最右图假设的风险分布和决策阈值,当风险分布不同时,超边际统计也不同,说明了要求分类均等的问题。此外,由于风险分布完全取决于特征和结果的选择,算法设计者改变风险分布的空间往往很小。

图2 假设风险分布


(2)超边际问题
流行的误差度量评估行为远离边际的情况被称为超边际统计。因此,当风险分布不同时,标准的误差衡量标准往往不是个人公平或社会福祉的代表。就错误指标跨群体而言,这更多地告诉我们风险分布的形状而不是决策的质量。特别是很难确定错误率的差异是由于歧视还是由于风险分布的差异。
这一现象如图3所示,图中显示的是一个群体的基数率和群体的风险得分的AUC函数的精度和假正率。在给定的决策阈值上,根据群体的风险分布,度量值可以根据基准率和AUC参数而有很大的不同。这一现象表明了下边缘性的问题,在这一问题上,常见的误差度量是基于标签的歧视的不佳代表。

图3 不同的风险分布对精度和假正率的影响


(3)实践中的边际性
图4显示了根据数据估计的白人和黑人被告的暴力累犯风险。这些分布是通过使用数据集中的所有特征(包括用于预测暴力犯罪活动的原始COMPAS风险分数)来预测未来暴力犯罪逮捕的弹性网络。图4中绘制的经验分布在各组之间有很大差异。因此,门槛规则要求所有个人都遵守同样的标准,这违反了分类均等。因为风险分布的形状不同,阈值决定必然意味着像假正率这样的度量也不同,说明这些度量作为公平的度量的内在问题。

图4 黑人和白人被告的暴力累犯风险


(4)分类均等对群体福祉的影响
当风险分布不同时,强制执行分类均等常常会降低所有群体的效用。要求分类均等(甚至近似均等)会对多数群体和少数群体造成同样的伤害。当风险分布不同时,无论社会如何平衡犯罪和拘留的相对成本,分类均等通常对所有群体都是昂贵的。
(5)关于假正率的其他误解
首先,人们可能认为群体水平的假正利率的差异表明存在信息差距。无论收集到什么特征,只要基准率不同,风险分布就会不同,因此,即使是基于高质量信息的预测,也会出现假正比率的不同。此外,在某些情况下,降级预测可以降低一个群体的假正率。这一现象在图5中得到了说明,它显示了当我们降低对黑人被告的风险估计的预测质量时,假正率是如何变化的。

图5 假正率的变化情况


第二个误解是假正率是一个群体总体福祉的合理代表。然而,这一理念忽视了假正率与风险分布之间的密切关系。如果不考虑风险的分配(特别是导致分配的过程),假正率可能是一种误导性的公平措施。
3)校准的局限性
当犯罪学家和从业人员开发或审核风险评估工具时,他们通常会检查风险评分是否经过校准。然而,尽管校准是重要的,但不足以确保风险分数是准确的或决定是公平的。图6显示了校准的离散分数如何掩盖基于标签的歧视,其中不同的阈值用于将个体划分为风险类别。因此,在评估离散风险评分的校准时必须小心谨慎。

图6 使用校准的粗略分数进行辨别


左图显示了两组的风险分布,以及用于定义三种风险类别的组特定阈值。右图显示这些类别已校准。但是,通过仅拘留处于“高风险”类别(左图中虚线阈值以上)的被告,决策者成功地歧视了红色组,红色组的门槛低于蓝色组的被告; 在这种情况下,红色组被告被拘留,而同样危险的蓝色组被告被释放。
4 设计公平算法的公开挑战
目前没有简单的程序或指标来确保算法决策是公平的。但是,我们可以列举设计公平算法的一些关键原则和挑战。我们在这里大概集中讨论了四大事件:(1)测量误差;(2)样本偏差;(3)模型形式,包括模型的可解释性;(4)外部性和平衡效应。
(1)测量误差
我们分别称测量误差为这些数量中的标签偏差和特征偏差。我们认为标签偏差通常对构建公平性的风险评分提出了重大挑战,实际上标签偏差可能是公平机器学习面临的最严重障碍。然而,在实践中通常可以更容易地处理特征偏差,尽管仍然存在复杂性。测量偏差的一般问题没有完美的解决方案。但是,至少在某些应用中,可以减轻这些棘手的统计问题。在实践中,信息的回报往往递减,相对较短的关键特征列表提供了大部分预测能力,至少部分地减轻了这种担忧。
(2)样本偏差
除了解决测量误差之外,在构建风险评分时最小化样本偏差也很重要。理想情况下,应该在数据集上训练算法。另一个挑战是如果用于训练模型以在新制度中进行预测,即使来自同一管辖区的数据也可能出现样本偏差。与测量误差一样,没有完全解决样本偏差的问题的方法。在许多情况下,获取代表性数据可能过于困难。简单,透明的模型可以减轻训练数据中的一些问题。
(3)模型形式和可解释性
在风险评估中,人们越来越倾向于设计简单,透明且可向专家解释的统计模型。在传统的机器学习应用程序中,研究人员通常愿意接受复杂性以换取准确性。这种预测性能的驱动力使得算法能够获得非凡的成就,但也越来越难以理解。但是,复杂或不透明的算法可能会引起不信任,从而阻碍实施。更简单的模型可以通过捕获一般关系而不是特殊模式更好地从一个群体转移到另一个群体,从而部分缓解对训练数据中样本偏差的担忧。
(4)外部性和平衡效应
我们的大部分讨论忽略了潜在的外部性和平衡效应,但是有一些重要的设置可以解决这些考虑因素。例如,某些决策更好地被视为群体而非个人选择。潜在的平衡效应对算法干预的整体效用有影响。此外,如果这些工具改变了应用它们的人群,那么如果不进行持续更新,风险评估也可能随着时间的推移变得不那么准确。
6 结论
目前研究界围绕着三个关于公平性的数学定义:反分类、分类均等和校准进行研究,但是这些普遍的公平措施受到明显统计上的限制。设计一个公平的算法,我们首先强调在现实世界中建立公平性的技术和政策讨论基础的重要性。其次,我们建议将风险评估的统计问题与设计干预措施的政策问题脱钩。
公平机器学习领域仍处于起步阶段,有一些重要的研究途径可以从新的统计和计算见解中获益。从缓解测量误差和样本偏差,到理解外部性的影响,到构建可解释的模型,还有很多工作要做。经过精心设计和评估,统计风险评估有可能显着改善后续决策的效用和公平性。