 

红旗不倒

文章：162 阅读：723608 评论：108 赞：6646

扛起电子圈大旗

 好友  私信个人主页

扛起电子圈大旗

文章 162
原创 0
阅读 723608
评论 108
赞 6646

原创机器学习分类中的公平成本

 2019-11-11 18:01  2403 18 2 分类: 机器人/ AI 文集: 人工智能

我们研究了具有公平约束的分类器学习问题，对量化问题内在平衡的目标有三个主要贡献。首先，我们将现有的两种公平度量与成本敏感风险联系起来。其次，对于成本敏感的分类和公平性度量，最优分类器是类概率函数的一个实例相关的阈值。第三，我们展示了准确性和公平性之间的平衡取决于目标的类概率和敏感特征之间的一致性。支持我们分析的是一个通用框架，该框架将公平性要求的学习问题转化为最小化两种统计风险差异的问题。

论文介绍

假设我们希望学习一个分类器来确定合适的求职者。这个分类器可以接受候选人的各种特征作为输入，例如他们的面试表现、资格和多年的经验。假设其中一个特征被认为是敏感的，例如他们的种族。然后，我们可能需要约束分类器，使其对这个敏感特性不具有过度的识别性。受此限制，我们当然希望分类器尽可能精确。这被称为公平感知学习问题，最近在机器学习界受到了相当大的关注。主要关注的是形式化什么才能构成一个完全公平的分类器，以及如何学习一个分类器来近似地实现这种公平性。在这两方面都有几个不同的建议。

在这篇论文中，我们感兴趣的是在一个公平要求的学习问题中的内在平衡。我们特别关注公平性对原始问题的两个方面的影响：最优解的结构和性能下降。我们的三项主要贡献C1-C3包括对这两个问题的分析：

C1：我们减少了两种现有的公平度量方法对成本敏感的风险。

C2：我们证明，对于这种成本敏感的分类和公平性度量，最优的公平感知分类器是类概率函数的一个实例相关的阈值。

C3：我们提供了目标和敏感特性的类概率之间的一致性度量，它量化了由于公平性要求而导致的性能下降。

公平度量作为统计风险

我们将公平性度量作为统计风险的一般观点提出，其中敏感特征是目标。这让我们可以使用研究风险的工具来分析公平措施。

在公平感知学习中，我们的目标是输出一个随机化的分类器：

我们将主要关注上述问题的以下可处理的特殊情况。

分类类型公平度量

我们可以定义一个分类类型的公平度量通过：

直观地说，我们正在测试是否可以从X预测敏感特性

。如果可能的话，根据Rfair的说法，我们不公平。

下述两个例子：

反分类器与对称公平

采用公平的统计风险限制了假阳性和阴性率。然而，这些约束可能假定我们的分类器在

上是不平凡的：例如，如果一个分类器f有

，那么

。那么人们可能会通过反分类器欺骗这些度量。即一个具有高公平性，但其否定具有低公平性的措施。

从直觉上讲，人们希望禁止这样一个微不足道的转变对公平产生不利影响。要做到这一点，一个简单的方法是考虑对称的公平度量：

公平度量的成本敏感观点

平衡的成本敏感风险

不同的影响和成本敏感风险

我们的第一个结果是，不同的影响因素可能与平衡的成本敏感风险有关。这表明对后者的研究有助于理解前者。

首先，引理 1并不意味着不同的影响等于成本敏感的风险，而是它们的超水平集是相关的。尽管如此，这意味着一个完全不同的影响约束等同于一个成本敏感的约束，后者更容易分析，第二，正如引理 1对任何分布D所持的那样，我们可以插入DEO，在“机会均等”制度中产生同样的不同影响结果。

成本敏感的公平问题

上述结果证明了成本敏感公平度量的通用性。因此，在本书的续集中，我们将重点关注一般成本参数的这类措施，依靠引理1和2将有关这些参数的陈述与有关DI和MD分数的陈述联系起来。对于对称性，我们还将关注基础问题的成本敏感风险，尽管可能具有不同的成本参数。我们可以将一般问题1的特殊情况正式化，这是接下来的重点。

贝叶斯最优公平感知分类器

将公平感知学习问题正式化，并将现有的公平措施与成本敏感风险进一步联系起来，我们就可以研究该问题带来的权衡。我们首先问：公平性要求对贝叶斯最优解有什么影响？这些解决方案的结构提供了对问题的深入了解，并提出了简单实用的算法。

在命题4中，首先，我们只需要知道敏感特性在正实例中处于活动状态的概率。第二，阈值修正的形式不再是相加的，而是相乘的。

上面研究了一个一般性的X，其中敏感特征不一定作为分类器的输入提供。当我们允许敏感特征作为输入时，最优分类器的形式简化了。

总结

我们研究了具有公平约束的学习问题中固有的权衡问题，表明对于成本敏感的公平度量，最优分类器是类概率函数的一个依赖实例的阈值，并通过一个目标和敏感变量的对齐。

未来工作有几个有趣的方向。举几个例子，我们认为研究Bayes的最优评分器对诸如AUC之类的排名度量很有价值；建立插件估计量的一致性；量化使用有限样本的影响；并将我们的分析扩展到多类别敏感特征的情况。

写原创有奖励！2025面包板原创奖励正在进行中

上一篇：机器学习中公平研究前沿
下一篇：机器算法决策的公平性，多样性和随机性

PARTNER CONTENT

换一换> 更多>

案例分享 | 高效节能，性能卓越！汉高三防漆为电动汽车充电系统披上"隐形铠甲"

汉高 2025-03-21

文章评论（1条评论）

登录后参与讨论

curton 2019-11-17 15:14

学习了

回复

查看更多评论

相关推荐阅读

红旗不倒 2023-04-24 16:28: 多谐振荡电路原理、计算公式，施密特,单稳态电路,多谐振荡电路优缺点; 多谐振荡电路原理、多谐振荡电路计算公式、施密特,单稳态电路,多谐振荡电路优缺点多谐振荡电路是一种具有放大作用的电路，它利用电容的充放电特性来产生振荡信号。多谐振荡器的基本原理是，当外加在电感两端的交流...

红旗不倒 2023-03-29 17:23: 可控硅材料介绍、作用、与igbt优缺点对比; 本文分享可控硅材料介绍、作用、可控硅和igbt优缺点对比可控硅是什么材料，有哪些作用可控硅，又称为晶闸管（SCR），是一种电子器件，常用于控制交流电的电压和功率。可控硅由四层半导体材料组成，其中P型半...

红旗不倒 2023-03-24 10:49: 强大的chatgpt NLP技术，可能无法单独吞噬世界？; 人工智能编码尽管软件被认为是“吞噬世界”，但由于开发人才的获取和构建软件所需任务数量的增加，它在这样做方面受到了严重限制。需要软件开发人员的工作数量正在以远远超过进入市场填补这些职位的熟练专业人员...

红旗不倒 2023-03-20 10:47: ChatGpt汇总:全球各国在6G发展状况?5G、4G、3G、2G和1G的网速和覆盖能力对比; 6g 普及了吗，对比5、4、3、2、1G网速、关键核心技术、覆盖能力、成本等汇总对比，全球各国在6G领域的发展状况？网速方面：2G：数字式移动电话技术，可提供更快的数据传输速度和更好的语音质量。4G：...

红旗不倒 2023-03-15 16:49: 电机功率计算公式(三相平衡功率、异步电机功率）详细解读，看得明明白白; 电机功率的计算公式需要考虑到电机的实际情况、电力质量等因素，因此具体的计算需要根据实际情况进行调整。以下是三相平衡功率和异步电机功率的计算公式：三相平衡功率计算公式：三相电源输入功率 P = √3 ×...

红旗不倒 2022-08-03 18:10: IC面临库存调整、英飞凌Q3收入增长超预期、台积电将用中微刻蚀机生产5纳米; 2022年8月3日，半导体行业快讯汇总：15:05据台媒报道，近来半导体行业被“砍单潮”席卷，OSAT（专业委外封测代工）业内人士称，消费电子应用的成熟基础IC面临库存调整，先前数次调涨封测代工费用的...