现在经常使用算法来判断带审判的被告是否极度危险而不能释放,在某些案例中,被告为黑人更倾向于被错误地分类为高风险人群。现在已有许多技术来减轻该类差异,以达到算法公平性。于此我们重新将算法公平性定义为约束优化问题:以旨在减少种族差异的公平约束而最大化公共安全为目标。我们发现,在已有的若干公平性定义中,最终算法都需将被告保持在特定的种族风险阈值之上,而最优无约束算法则对所有的被告采用唯一确定一致的阈值。因此最优无约束算法最大限度地提高了公共安全,同时也满足人们对于公平的普遍理解,即不论种族如何,所有人均采用相同的标准一致对待。但由于最优约束算法与无约束算法的不同,导致在提高公共安全与满足普遍存在的各类算法公平概念之间仍然存在难以调和的关系。通过对佛罗里达州布劳沃德县的数据的分析,我们发现该类权衡在实际应用中更加明显。本文我们关注用于审判前决策分类的算法,但本文讨论的原则同样也适用于其他领域,如人工利用结构化决策规则制定判决决策的场景。
如今已经有很多法官使用智能算法来辅助决策,待审判时对被告人应拘留还是释放,其中COMPAS算法便将风险定义为1-10的范围,以表示该人在100多个因素下暴力犯罪的可能性大小。然而根据弗罗里达数据显示,在使用该类的算法情况下,黑人被告比白人被告更可能被分类为高风险人群,为减少该类种族差异,便有了一系列用于公平决策的算法。根据以往的公平性定义,所有人都遵循统一标准,不论种族,但佛罗里达的数据则表明使用过去的定义,由于减少种族差异与公共安全见存在对立关系,这将大大降低公共安全。而单独优化公共安全,却容易导致严重的种族歧视,为此我们将算法公平性重新定义。
公平性定义的政策制定者必然受限于可适用的决策规则。一般地,多个规则满足任何给定的公平性标准,因此其仍然需要从中选择一类规则,并试图最大化某种效益。
定义(即刻效用)对于c常数,使得0
方程式 Eq(1)中的第一个项是决定预期收益规则,第二项是其成本。对于审前决定,在
下,第一个语句与预期的暴力犯罪数量成正比。第二个语句是被拘留的人数。常数
挽救犯罪单位的成本。我们称之为即时效用,它只反映了近似的成本和收益决定。 例如,它没有考虑长期的,系统性的决策规则的效果。
我们重新定义即刻效用,如下所示:
我们对即时效用的定义隐含地编码了两个重要的假设。 首先,由于
是二元的,所有暴力犯罪都是假设成本相同。 第二,每个人的扣留费用
个人被假定为
,而不考虑个人特征。 这些限制都可以放宽,而且不会显着
影响正式的结果。 然而在实践中,它是最难的近似个人化的成本和拘留的利益.
对于我们考虑的三个公平性定义(统计平价,条件统计平价和预测平等), 结果的最佳算法是简单的,确定的基于
的阈值规则。 当用于统计奇偶校验和预测平等,如果
超过组特定阈值时,最优算法会扣留信息。对于条件统计平价,最优决策规则中的阈值取决于组成员资格和“合法”因素`(X)。 最后,表明了无约束效用最大化算法对所有个体应用单个统一阈值,而不考虑组成员身份。重要的是,由于最优约束算法不同,最优无约束算法,公平性有成本
定理3.2表明阈值规则立即最大化当我们考虑的三个公平标准完全保持时,效用。如果我们只需要约束,则阈值规则也是最佳的大约持有。 例如,阈值规则在误报率相差的要求下最大化即时效用最多组间的常数
。 要注意这一点,请注意我们在定理3.2中的构造可以保留误报率。 因此,从满足(宽松)约束的非阈值规则开始人们可以构建满足约束条件的阈值规则
严格提高即时效用,建立最优门槛规则。
之前已经提出了阈值规则来实现我们分析的各种公平标准,在过去的研究与工作中,选出两个重要的区别。首先,此类算法的最优性尚未建立,
事实上,先前提出的决策规则并不总是最优的。其次,我们的结果澄清了类别特定决策的必要性
我们对即时效用的定义并没有设置硬性上限被拘留的人数,而是平衡拘留率通过常数
获得公共安全利益。作为结论,在定理3.2中在公平约束下,即时效用也最大化在公平和被拘留被告人比例受到限制的情况下优化公共安全。
设想 3.3 假设D是满足的决策规则集统计平价,条件统计平价,预测平等,或所有决策规则的全套。 间隔有一个双射f[0,1]
如上所示,在过去的概念下的最优算法公平性与无约束的解决方案不同.因此,满足公平的共同定义意味着必须在理论上牺牲一定程度的公共安全。 我们接下来回答这个问题这种公共安全损失在实践中可能有多大。
COMPAS分数可能不是最准确的估计值风险,因为分数是离散的,因为它们是没有专门为布劳沃德县训练。 因此,估计
我们重新培训预测为期两年的风险评估模型使用L的暴力累犯随后进行了正则化逻辑回归.通过Platt缩放。 该模型基于所有可用功能每个被告,不包括种族。 我们的风险评分更高一套被告人的AUC比COMPAS分数(0.75vs. 0.73)。 我们注意到,为此模型添加竞争并未改善性能,由AUC在测试装置上测量.
我们估算每个决策规则的两个数量:增加在释放被告的暴力犯罪中,相对于一个被释放的被告仅仅为了公共安全而优化的规则,忽视了正式的公平性要求; 以及被拘留被告的比例低风险(即,如果我们再次只考虑公开,将被释放安全)。 我们在100次随机列车测试分裂中计算这些数字的数据。 在每次迭代中,我们训练风险评分模型和使用70%的数据来确定最佳阈值,然后进行计算剩下的30%的两个统计数据。 领带随机破坏当它们发生时,我们报告所有运行的平均结果.
对于每个公平约束,实验结果显示暴力累犯增加而低风险被告被拘留。例如,当我们实施统计平价时,17%的被拘留被告是风险相对较低。同等数量的高风险被告是因此释放(因为我们持有个人数量被拘留者),被释放被告的暴力累犯率估计增加9%。 因此,实际上是有形成本满足流行的算法公平观念
约束条件以满足统计平价的决策规则统计平等或预测性平等会降低公共安全。 但是,一般的单门槛规则可以最大限度地提高公共安全违反所有这些公平性的定义。 例如,在Broward数据,以单一门槛规则最优地拘留30%的被告意味着40%的黑人被告被拘留,相比18%的白人被告,违反统计平价。在最终没有继续承诺的被告中暴力犯罪,14%的白人被拘留,而32%的白人被拘留黑人,违反预测性平等。
这些差异的原因是布劳沃德县的白人和黑人被告有不同的风险分布,
。特别是,更多的黑人被告有较高的风险评分,部分原因是黑人被告更有可能事先被捕,这是一个强者重新犯罪的指标。 重要的是,虽然算法设计师可以根据这些风险评分选择不同的决策规则算法不能改变自己的风险分数,这反映了Broward县人口的基本特征。
一旦确定了决策阈值,就会产生这些风险分布确定决策规则的统计属性,包括小组特定的拘留和误报率。 从理论上讲,它是可能这些分布以实现统计平等或预测平等的方式排列,但在实践中这是不可能的。因此,任何保证满足这些不同公平标准的决策规则在实践中都会偏离不受约束的最佳情况。
到目前为止我们的算法输出决策
。 然而在实践中,算法如COMPAS通常输出一个声称为被告的分数
风险
; 决策者然后使用这些风险估计来选择一种行为。在某些情况下,既没有公开过程也没有用于生成这些分数的数据,这让人担心得分自己是歧视性的。 为了解决这个问题,研究人员经常检查分数是否经过校准。由于必须校准真实概率
,因此可以预期风险估计值是近似的这些概率也需要校准。
没有证据表明组织在构建风险评分时故意忽略了相关信息。然而,类似的影响也可能是由于疏忽或无意的疏忽造成的。 实际上,我们现我们可以提高Broward县COMPAS的预测能力用标准统计模型得分。 确保算法是正确的。检查算法本身是非常重要的
结论:
最大化公共安全需要拘留所有被视为个人的人无论种族如何,都有可能犯下暴力犯罪。但是,为了满足公平的公共指标,必须设置多个种族特定的阈值。 因此,这是一种内在的紧张在尽量减少预期的暴力犯罪和满足共同的公平观念之间。 张力是真实的:通过分析数据来自Broward县,我们将优化公共安全产生严重的种族差异; 相反,满足过去的公平贬值意味着释放更多高风险的被告,这是不利的公共安全。
政策制定者面临着艰难而重要的选择最终还不清楚在任何给定的行动中哪种行为最佳情况。 但是,我们注意到一个重要的考虑因素:与种族特定的门槛,黑人被告可能会被释放同样危险的白人被告被拘留。 这种种族分类
可能会引发严格的审查,这是最严格的标准美国法院在平等保护下使用的司法审查第十四修正案的条款。 因此,单阈值规则在满足核心宪法的同时
最大限度地提高公共安全规则,支持案件对其有利。
在某种程度上,过去公平定义所体现的问题可以在仍然采用单阈值规则的情况下解决。 对于例如,通过收集更多数据并相应地增加数据风险评估的准确性,可以降低错误率。 此外,一个可以提高拘留被告的门槛,减少被告
被错误地从所有种族群体中扣留的人数。 最后,人们可以改变决定,使得分类错误成本更低。 例如,有风险的被告可能被要求参与社区监督,而不是被关在监狱中的程式。
最后,我们注意到一些决定被认为是群体而不是个人选择,限制了其适用性我们一直在考虑的框架。 例如,何时大学招收学生,他们的目标是选择最好的团体,不仅仅是最好的个人候选人,而且可能因此而决定偏离单门槛规则以创造多样化具有不同观点和背景的社区。
专家越来越依赖于各种算法决策辅助工具设施,包括执法,教育,就业和医学。 算法有可能改进决策的效率和公平性,但它们的设计和应用为研究人员和政策制定者提出了复杂的问题。通过澄清竞争算法概念的含义公平,我们希望我们的分析能够促进讨论并为政策提供信息。
curton 2019-11-25 22:14