 

红旗不倒

文章：162 阅读：742586 评论：109 赞：6650

扛起电子圈大旗

 好友  私信个人主页

扛起电子圈大旗

文章 162
原创 0
阅读 742586
评论 109
赞 6650

原创机器算法决策的公平性，多样性和随机性

 2019-11-11 18:03  2580 15 2 分类: 机器人/ AI 文集: 人工智能

思考单个机器学习分类器替代多人的二元决策过程。我们对决策过程中造成的多样性损失提出疑问。我们研究在公平意识学习的背景下使用随机分类器集合而不是单个分类器的潜在优点，并展示各种有吸引力的特性：（i）对于几种不同的公平度量方法来说，公平分类器集合能保证公平，（ii）不公平分类器集合仍然可以实现公平的结果，以及（iii）分类器集合可以比单个分类器实现更好的准确率和公平性平衡。最后，我们介绍了分布公平的概念，以说明随机分类器集合的更深层次的潜在优点。

2 引言

最近有一些工作研究了最近出现的问题，即从再犯风险评估和福利待遇资格审核[13]到贷款审批和信用评分等方案中用基于机器学习的系统取代人类决策者的趋势引起的公平问题。然而，这些研究在很大程度上忽略了多样化的决策过程中的隐形损失，这种损失是由于用一个决策算法替换大量人类决策者造成的，每个人类决策者都可能有自己独特的决策标准。

在人们做出决策时，由于我们有限的认知能力，决策过程的多样化是不可避免的。例如，没有一个法官可以估计一个城市或国家的所有罪犯再次犯罪风险。因此，在实践中，个别案例被分配给一个或多个随机选择的法官下随机选择的子小组。随机分配是实现公平的关键，因为人类法官的不同小组可能会做出不同的决策，每个案例应该有平等的机会由每个有资格的小组进行评判。

相比之下，一个决策算法通过简单的增加计算资源就可以轻松扩展计算能力以处理任何数量的工作。目前在实践中用算法取代多个人类决策进行决策，例如COMPAS用于美国的再犯风险评估，波兰劳动和社会政策部引入了用于福利资格认定的算法。然而，我们注意到，人们可以通过训练算法集合（每个算法都可能体现法官使用的不同的“思想流派”），将一个案例随机分配给算法集合的一个子集，然后以集合方式作出决定（例如，简单加权表决，或一致同意），将多样性引入机器决策制定中。探索这种方法的另一个动机是因为关于集合学习的丰富文献显示出多个预测因子集合的组合可以在（理论上和经验上）不同的任务中表现出优于单一预测因子的结果。

在此背景下，我们探讨了以下问题：出于公平决策的目的，用不同的决策算法集合替换单一决策算法是否更好？在本文中，我们在有限制的一组的场景中考虑该问题，其中算法是二元分类器，并且任何给定用户的决策是由从分类器集合中随机选择的一个分类器做出的。虽然条件有限制，但这些情景可以反映许多现实环境中的决策（例如，随机指派法官决定是否向申请人发放保释金）并显示出很好的效果。

我们初步的研究成果表明与单一分类器相比，多样化的集合不仅可以在对一组用户更均匀地分配利益方面实现更好的公平性，而且能就现有的不公平概念（措施）如不同的待遇，影响和歧视，实现更好的准确性和公平性平衡。有趣的是，我们发现，对于某些公平的概念来说，即使集合中的个别分类器是公平的，也不能保证多样化的分类器集合是公平的。另一方面，即使集合中的个体分类器不公平，多样化的集合也可以是公平的。令人惊讶的是，我们证明正是后一种性质使得各种不公平分类器的集合能够实现比任何单一分类器更好的准确性-公平性权衡。

我们的工作表明，在设计公平学习机制时，进一步研究基于集合的方法领域可能会非常有成效。

3 分类器集合的公平性

我们首先介绍我们的集合方法（从不同的集合中随机选择分类器）和分类中的各种公平概念，然后阐述集合分类器的有意义且可能令人惊讶的性质。尽管结果可以自然地扩展到二元属性之外，我们假设只有一个二元的敏感属性（例如，性别或种族）。

用于评估决策系统公平性的两个常见概念是要求分类器应满足[4] 1）对待平等性，即对用户的预测不应取决于用户的敏感属性值（例如，男性，女性）;（2）影响的平等性，即所有敏感属性值组（例如男性，女性）的结果影响率应相同。对于（2），已经提出了各种结果影响率的测量方法：对该组的真正（或负）例率[7,16,17];分类器对组的正（或负）例率[9,11,15];或分类器的预测正（或负）例率 - 也称为积极（或消极）预测值 - 对于组[11,15]。

3.1公平分类器集合是否能保证公平？在许多情况下是的。

对于由上述分类器

组成的任何集合Cens，可以立即看到，如果所有

满足对待平等性，那么Cens也满足对待平等性。

接下来，人们可以很容易地证明，如果所有

满足影响平等性（即，结果影响率相等），其中结果影响率被定义为正（负）类接受率，或真正（负）例率，然后Cens也将满足影响的平等性。例如，如果结果影响率是根据正类接受率，并且所有

的预期结果是相同的：

这里II为指标函数，然后可以证明：

使用线性期望，因为所有期望都是在恒定大小的组上定义的（左侧定义在z = 0的组上，右侧定义在z = 1上）。当根据正（负）率定义结果影响率时，可以显示相同的结果。也就是说，对于真正的正例率来说，如果它持有：

我们可以说：

另一方面，如果以正（负）预测值定义结果影响率，则这不再成立，因为这些值被计算为对分类器

的预测正或负类的大小的期望。具体而言，对于z = 0的组，分类器

预期的正预测值定义为：

由于期望是在

（x）=1上定义的，它随着每个j∈[0，M]的变化而变化，我们不能再应用线性期望，因此即使所有的

都具有此性质，Cens也不会满足这种影响平等的概念。

3.2 一组不公平的分类器集合可以是公平的吗？是。

对于上述对待平等或影响平等的所有公平概念，存在不公平分类器的随机集合确实可以公平的情况。在这里，我们展示了对待平等和影响平等（或结果影响率相等）的案例，其中结果影响率被定义为来自敏感属性值群体（例如，男性，女性）的用户被接受进入正类[7,16,17]的比例。可以类似地构建以术语或错误率定义有利措施的示例。

对待平等。如图1所示，该示例显示了涉及两个敏感属性值组（男性和女性）以及两个分类器C1和C2的决策制定方案。公平标准中的平等要求分类器必须平等地对待个体而不管其敏感属性值（即，无论被分类的主体是男性还是女性）。观察到C1和C2都不满足这个标准，因为每个只接受女性或男性。另一方面，随机地选择C1和C2的这些分类器的集合满足对待平等性。

图1：涉及两组对象的虚构决策方案：男性（m）和女性（w）;一个特征：f1（性别）;和两个分类器：C1和C2。分类器C1和C2不满足对待平等性，因为它们的结果完全取决于用户的敏感属性值，即C1（C2）将所有女性（所有男性）分类为正类，同时将所有男性（所有女性）分类为负类。另一方面，一个分类器集合分别选择分类器C1和C2的概率为

，这个分类器集合是公平的，因为其决策不会因为用户用户的性别而改变。

影响平等。我们在图2中提供了一个示例，其中影响公平效益度量的是接受为正类的比率。比较C1和C2给出的群组影响，两个分类器都不符合公平性标准，因为它们对男性和女性具有不同的正面接受率（如图所示）。

图2：涉及两组对象的决策方案：男性（m）和女性（w）;两个特征：f1和f2;和三个分类器：C1，C2和C3。绿色象限表示训练数据中的正类，而红色象限表示相应的负类。在每个象限内，点均匀分布。性别不是分类器使用的特征（f1和f2）之一。分类器C1和C2不满足影响平等标准（当群组影响被衡量为正例率时），因为它们分别仅将男性和女性分配给正类。通过这种方法，C3是一个公平的分类器，因为它给予男性和女性相同的0.22正利率。Cens是一个集合，其中包括选择概率为

的分类器C1，以及分类器C2，概率为

。整体由不公平的分类器组成，产生公平的结果：它对男性和女性具有相同的0.22正类接受率。

3.3 分类器的集合能否比单个分类器实现更好的准确性-公平性平衡？是。

首先，通过其定义观察，Cens的准确率是各个分类器Cj准确率的分类概率p（j）的期望。

当个体分类器针对公平性约束进行精确优化时，相对于最优无约束分类器，它的精确度的损失是不可避免的。如果使用分类器集合，那么扩展我们的模型类以允许几个不公平分类器的组合，其中一些可能具有比最优公平分类器高得多的精度——仅要求集合分类器是公平的。

我们在图3中提供了一个例子。我们认为公平性是由男女正类接受率是否相同决定的。鉴于所显示的数据分布，对于单个分类器是公平的，它必须位于最左侧（每个人都被归类为正面）或极右侧（每个人都被归类为负面）——在准确率为50％的任何一种情况下，在该示例中是单个公平分类器的最佳可实现精度。

现在考虑所示的两个分类器C1和C2的集合，选择概率为

的任一个。该集合满足公平性标准（每种性别的正例率为0.25），准确率为75％，远优于50％的单一公平分类器。

图3：决策制定方案涉及一个特征f1和三个分类器：C1，C2和C3。较高的f1值表示男性训练数据中的正类（绿色），女性训练数据中的负类（红色）。在这种情况下，如果我们要求两组享有相同的效益（其中，效益被衡量为正类接受率），那么任何单个线性分类器都不能超过50％的准确率。然而，C1和C2的集合以

概率选择它们中的每一个，实现了公平性（效益相等），具有更好的0.75的准确率。

3.4 分配公平的概念

集合分类器的行为与其组成分类器的区别在于微妙但重要的方面。特别是，对于组成分类器产生不同结果的数据点（或单个用户），我们随机选择单个分类器的方法在分类器输出中引入了非确定性。

我们在图4中说明了这种情况，显示了两个分类器C1和C2，其中每个分类器都具有公平的影响，因为C1和C2在50％的男性和50％的女性中确定性地分配了有益的结果（在这种情况下为正类）。然而，分类器在分配有益结果的女性组合方面不同。通过创建两个分类器

：

集合，我们确保所有女性都有相同（50％）的影响结果的机会（虽然我们仍然满足影响中的平等）。

这提出了一个有趣的问题：集合分类器的结果是否比构成它的单个分类器（C1和C2）的结果更公平？

虽然所有这些分类器都满足影响公平性约束的平等性，但可以证明集合更公平，因为它为所有女性提供了获得影响结果的平等机会，而C1和C2预先确定将获得有益结果的女性子集。

据我们所知，现有的算法公平度量没有包含这种在属性组的所有成员之间均匀分布有益结果的概念。相反，现有的公平性措施侧重于敏感群体之间的结果的公平分配（群体间公平性），而在很大程度上忽略敏感群体内的结果的公平分配（群体内公平性）。这些观察结果表明，在未来的工作中需要新的分配公平概念来描述不同分类器集合可以实现的收益。

图4：分类器C1和C2满足影响平等性，因为它们的结果影响率（定义为正类接受率）对于男性和女性是相同的。考虑两个分类器的集合，它们随机均匀地选择C1和C2中的每一个。整体也满足了影响的平等，但男性和女性的有益结果的分布是非常不同的：一半的男性（右上象限）总是得到正例的结果，而一半的男性（左下）总是得到负例的结果;而每个女性随机获得正例的概率为0.5。