算法公平性已经开始引起越来越多在人工智能、软件工程和法律领域的研究人员的注意,在过去几年中研究专家们也提出了20多种不同的公平概念。 然而,在不同情况下使用哪种定义并没有给出明确的区分,而且也难以掌握多个定义之间的详细差异。为了解决这个问题,本文收集了算法分类问题公平性的最突出定义,解释了这些定义背后的基本原理,并在一个统一的案例研究中展示。本文分析直观地解释了为什么根据某些定义可以认为相同的案例是公平的,而根据其他定义则是不公平的。
背 景:近年来,人工智能领域取得了非凡的进步。人工智能现在可以在许多关键决策点取代人类,如进行判断贷款资格以及聘用资格。有人可能会认为这些算法是客观的,不受人类偏见的影响,但事实并非如此。如,刑事司法中使用的风险评估软件展示了与种族相关的问题,旅行费用聚合算法将Macbook使用的用户引导到更昂贵的酒店。算法公平的话题已经开始引起人工智能和软件工程研究社区的注意
2016年末,IEEE标准协会发布了一份250页的草案文件,内容涉及算法透明度的含义,该文件的最终版本预计将于2019年通过。该文件涵盖了指导道德研究和设计的方法,以维护联合国“世界人权宣言”中概述的人类价值观。学术界也提出了许多公平待遇的定义,在算法环境中找到合适的公平定义却往往备受争议。本文关注机器学习领域的分类问题:在给出包含已知类别的观察的训练数据的情况下,识别新样本的类别。我们收集整理了当今文献中较为主流的公平定义,并在一个共同的,统一的数据集——德国信用数据集上进行了说明。该数据集包含有关1000名贷款申请人的信息,包括描述每个申请人的20个属性,例如,信用记录,贷款目的,申请的贷款金额,婚姻状况,性别,年龄,工作和住房状况等。其决策属性为申请人的信用评分是好还是差。本文的主要贡献在于对收集的大量定义的直观解释和简单说明。
度量标准:本文中使用的公平性评价指标都是建立在混淆矩阵提供的基础的评估指标之上的,如:
1. TP(实际为正例被预测为正例的样本数)
2. FP(实际为负例被预测为正例的样本数)
3. TN(实际为负例被预测为负例的样本数)
4. FN(实际为正例被预测为负例的样本数)
5. PPV(Positive predictive value, TP/(TP+FP))
6. FDR(False discovery rate, FP/(TP+FP))
7. FOR(False omission rate,FN/(TN+FN))
8. NPV(Negative predictive value,TN/(TN+FN))
9. TPR(True positive reate,TP/(TP+FN))
10. FPR(False positive rate,FP/(FP+TN))
11. FNR(False negative rate,FN/(TP+FN))
12. TNR(True negative rate,TN/(FP+TN))
本文案例是使用了一个基于Python训练的现有的逻辑回归分析器,用于二分类评估一个用户的信用的好坏,样本为抽象了48组特征的属性集合,其中包含了性别,婚姻状况等受保护的敏感属性在内,采用训练数据和测试数据9:1的交叉验证的训练方案来进行评估。下面给出一些常见的公平性评价指标:
1. 群体公平性(Group fairness)受保护组和未受保护组应具备相似概率的正确预测率。如男性和女性的信用评估分布概率应该是相似的。P(d = 1|G = m)= P(d =1|G = f),d表示预测结构,G表示性别为男m或女f。
2. 条件性统计群体公平(Conditional statistical parity)上述公平性评估是存在一定弊端的,如果从科学角度来讲,就是控制变量的问题,因为仅考虑了了受保护属性的分布,考虑性别应该是建立在其他属性分布也应当相似的前提下,即针对某一个保护属性的公平是建立在一定的前提下的(如其他受保护属性一致或分布一致),P(d = 1 | L = 1,G = m)= P(d = 1 | L = 1,G = f),如在此例中还考虑了L——婚姻状况。
3. 预测性平价(Predictive parity) 如果受保护和未受保护的组具有相等的PPV,则分类器满足此定义,具有正预测值的受试者的概率真正属于正类,P(Y = 1 | d = 1,G = m)= P(Y = 1 | d = 1,G = f),d为真实样本为正样本的情况。与此类似,还有正样本误报率误差平衡(False positive error rate balance),负样本误报率误差平衡(False negative error rate balance),均衡赔率(Equalized odds), 条件准确率平等(Conditional use accuracy equality)和整体准确率平等(Overall accuracy equality)。
4. 测试公平性(Test-fairness), 如果对于任何预测概率分数S,受保护和未受保护组中的受试者具有真正属于阳性类别的相等概率。该定义类似于预测奇偶校验,不同之处在于它考虑了任何S值的正确预测的分数。在本文示例中,这意味着对于[0,1]中任何给定的预测概率分数s,男性和女性申请人实际上具有良好信用评分的概率应该相等:P(Y = 1 | S = s, G = m)= P(Y = 1 | S = s,G = f)。与此类似,还有精细校验(Well-calibration),正分类均衡(Balance for positive class),负分类均衡(Balance for positive class)。
5. 因果区别(Causal discrimination) 如果分类器对具有完全相同属性X的任何两个主题产生相同的分类,则分类器满足该定义。在本文示例中,这意味着具有相同属性X的男性和女性申请者将被分配相同的信用标签:(Xf =Xm∧Gf!= Gm)→df = dm。
6. 无意识公平(Fairness through unawareness) 如果分类器满足在决策过程中没有明确使用敏感属性,则满足此定义。在我们的示例中,这意味着性别相关的特征不用于训练分类器,因此决策不能依赖于这些特征。这也意味着对于具有相同属性X的申请人i和j,分类结果应该是相同的:Xi = Xj→di = dj。与此类似,有意识公平(Fairness through unawareness)是指通过度量两个样本的相似度来评估他们是否应该处于同一分类下面。
总结分析:在本文中,作者收集了算法分类问题的最公平的公平定义。在德国信用数据集上训练的现有逻辑回归分类器上解释了具体的公平性定义并给出对应的统一表示。本文的主要贡献在于对每个定义的直观解释以及定义之间关系的识别。并讨论了从实验中汲取的经验以及未来可能的工作方向,比如:如何建立样本之间相似度度量指标,这并非是纯粹的术数学定义的距离,可能还会存在鉴于专家的隐含偏见,以及利用相似性去生成样本数据,也存在样本空间大,数据质量低等问题需要去解决。