在过去的几年里,学术界和大众对算法公平的兴趣激增。尽管如此,机器学习中关于公平的基础科学仍然处于萌芽状态。2018年3月,我们召集了一组专家一起来评估该领域的现状,并提炼出未来最有希望的研究方向。本报告总结了该研讨会的调查结果。在此过程中,本文综述了近年来该领域的理论工作,并指出了今后的研究方向。
在过去的十年中,应用机器学习的应用程序的多样性和这些应用程序的引入都有了巨大的增长。机器学习不再仅仅是广告投放和垃圾邮件过滤的引擎:它现在被用来过滤贷款申请者、部署警力、通知保释和假释决定等等。现在关注重点是数据驱动方法可能引入和延续歧视性做法,对于其他人来说是不公平的。这种关注并非毫无道理:一系列稳定的实证研究结果表明,数据驱动的方法可以无意中对现有的人类偏见进行编码,并引入新的偏见。
同时,近两年来,学术界对公平和机器学习的研究兴趣空前高涨。“公平和透明”从一个每年都会发表少量论文的小众话题转变为机器学习的主要子领域,并配有专门的档案会议(ACM FAT*)。尽管出版的文章数量很多,我们对机器学习公平的基本问题的理解仍然处于初级阶段。公平意味着什么?导致机器学习不公平的原因是什么?我们应该如何最好地修改我们的算法以避免不公平?我们必须解决的相应权衡是什么?
不公平的原因
甚至在我们精确地定义我们所说的“公平”之前,我们可以识别出一些常见的畸变,这些畸变可以导致现成的机器学习技术产生直观上不公平的行为。
1. 数据中的偏见编码:通常,我们手头的训练数据已经包含了人类的偏见。例如,在用于通知保释和假释决定的累犯预测问题中,目标是预测一名囚犯如果获释,是否会在一段固定的时间内再次犯罪。但是我们没有关于谁犯罪的数据——我们有关于谁被捕的数据。有理由相信,逮捕数据——尤其是毒品犯罪——倾向于少数族裔人口,而这些少数族裔人口受到更高比率的监管。当然,机器学习技术是为适应数据而设计的,因此自然会复制数据中已经存在的任何偏见。没有理由期望机器消除现有的偏见。
2. 最小化平均误差适合主要群众:不同的人群在特征上有不同的分布,这些特征与我们试图预测的标签有不同的关系。例如,考虑基于高中数据预测大学绩点的任务。假设有大多数人口和少数人口。大多数人聘请SAT导师,多次参加考试,成绩最高。少数人没有。我们很自然地期望大多数人的SAT分数都更高,并且与少数人相比,他们与大学成绩的关系是不同的。但是,如果我们训练一个群盲分类器来最小化总体误差,如果它不能同时满足两个种群的最佳匹配,那么它将适合大多数种群。这是因为——仅仅是因为他们的数量——适合大多数人口对整体误差比适合少数人口更重要。这导致少数人口中错误的分布不同(而且更高)。这种影响可以量化,并且可以通过协作数据收集工作部分缓解。
3. 探索的需求:在许多重要问题中,包括累犯预测和药物试验,输入预测算法的数据取决于算法过去采取的行动。我们只观察一个囚犯如果我们释放他是否会再犯罪。我们只观察药物对患者的疗效。学习理论告诉我们,为了在这种情况下有效地学习,我们需要探索——即有时采取我们认为是次优的行动,以便收集更多的数据。这导致了至少两个截然不同的伦理问题。首先,当探索的个体成本由某个亚人口不成比例地承担时会如何?第二,如果在某些情况下(如医疗情况下),我们认为采取对任何特定患者都是次优的策略是不道德的,那么这种缓慢的学习会有多慢,这会导致其他类型的不公平吗?
除了少数例外,迄今为止关于机器学习公平性的大部分工作都集中在批量分类的任务上。在较高的层次上,本文着重于两种主要定义:公平的统计概念和公平的个体概念。我们简要回顾了这些公平方法的优点和缺点。
1. 公平的统计学定义
大多数关于公平分类的文章都侧重于公平的统计定义。这一系列定义确定了少数受保护的人口统计学群体
(如人种群体),然后要求所有这些群体的某些统计指标(近似)具有同等性。常用的测量方法包括原始阳性分类率,假阳性和假阴性率和阳性预测值。这个公平性的一系列定义很有吸引力,因为它很简单,而且这个系列的定义可以在不对数据做任何假设的情况下实现,并且可以很容易地进行验证。然而,对公平的统计定义本身并不能为受保护人口群体的个人或结构化分组提供有意义的保障。相反,他们向受保护群体的“平均”成员提供担保。不同的公平统计指标之间可能存在矛盾,此外,受统计公平约束的学习也很难计算,尽管已知各种实用算法。
2. 公平的个体定义
另一方面,个体公平的概念要求约束特定的个体对,而不是群体平均的数量。例如,有文章给出了一个大致对应于“相似个体应被同样对待”的约束定义,其中相似性是关于必须根据具体情况确定的特定任务度量的定义。另一篇文章提出了一个大致对应于“不合格个人不应优于更合格个人”的定义,其中个体质量是根据真正的底层标签定义的。然而,尽管这些定义的语义可能比统计方法更具有意义,但主要的障碍在于它们似乎需要做出重要的假设。例如,某方法预先假设存在一个群体一致同意的相似性度量,其定义本身似乎需要解决一个公平的非平凡问题,另一种方法似乎需要对特性和标签之间关系的功能形式进行强有力的假设,以便有效地实施。这些障碍非常严重,目前尚不清楚个体的公平概念是否可行——尽管试图弥补这一差距是一项重要且正在进行的研究议程。
在统计和个体公平之间
考虑到现存的公平概念的局限性,有没有一种方法可以获得一些“两全其美”的东西?换句话说,约束实际上是可以实现的,而不需要对数据或算法设计的知识做出强有力的假设,但哪一个约束为个人提供了更有意义的保证?最近的两篇论文试图实现这个,通过要求统计公平性定义不仅在少数受保护组上,而且定义在由一类有界复杂度函数约束的群的集合指数级或无限组上。这种方法似乎很有希望:因为根本上是在寻求统计公平的概念,这些论文提出的方法享受统计公平的好处:不需要对数据进行假设,也不需要任何外部知识(如公平度量)。它还更好地解决了对“交叉性”的关注。
同时,方法还提出了一些额外的问题:哪些功能类是合理的,一旦确定了一个功能类(例如,受保护属性的连词),应该“保护”哪些功能?如果这些属性仅仅是对自身敏感的属性,如种族和性别,或者是对自身无害的属性,那么一旦我们考虑到它们与受保护属性的交叉点(例如与种族或性别交叉的服装样式),它们可能与我们希望保护的组群相对应吗?最后,这一系列的方法通过要求约束条件大大减轻了统计公平概念的一些弱点,这些约束条件不仅限于少数粗略定义的群体,而且还包括非常精细定义的群体。然而,归根结底,它也继承了统计公平性的弱点,只是把它限制起来。
最近的另一项工作旨在削弱关于个体公平性概念所需的最强有力的假设:即算法设计者对“公平性度量”有完全的了解。非正式地说,“平均而言,如果两个群体中的个体在平均水平上相似,那么两个群体中的个体应该被同样对待”——这可以通过一组指数或无限大的群体来实现。类似地,假设存在一个Oracle,当它们在联机环境中进行时,它可以识别公平性违规,但不能量化违规的程度。结果表明,当度量来自一个特定的可学习族时,这种反馈足以获得最佳公平分类器的最优遗憾,而公平度量的冲突次数是有界的。考虑到度量已知的情况,并表明一个受PAC启发的度量公平的近似变量概括为从相同的底层分布中提取的新数据。然而最终,这些方法都假定公平是关于某种度量标准的完美定义,并且存在某种直接的表达。这些方法是否可以推广到一个更“不可知论”的环境中,在这种环境中,可能没有人类能对符合任何标准的方式作出反应?
计算机科学中关于算法公平性的绝大多数工作都集中在一次性分类任务上。但真正的算法系统由许多不同的组件组成,这些组件组合在一起,由于学习算法本身的作用在动态变化的复杂环境中运行。为了使这一领域取得进展,我们需要了解更复杂系统中的动态公平。
也许动态公平中最简单的一个方面仍然不被理解,那就是可以单独满足公平概念的组件如何以及何时组成更大的结构来满足公平保证。例如,如果广告拍卖中的竞拍者对他们的竞标决定是公平的,那么广告的分配何时是“公平的”,何时不是?目前研究者在这个方向上进行了初步的尝试。本文对组合下的公平性进行了系统的研究,发现多个公平成分的组合往往根本不满足任何公平约束。同样,“公平”体系的各个组成部分在孤立的情况下似乎是不公平的。从这些作品中得到的高层次信息是,我们当前的公平观构成欠佳。差分隐私实验表明,在组合下的优雅降级是设计满足理想统计特性的复杂算法的关键,因为它允许将算法设计和分析模块化。因此,找到令人满意的公平定义和在组合下表现良好的更丰富框架似乎很重要。
在处理社会技术系统时,了解算法如何动态地影响其环境以及对人类行为的激励也是很重要的。然而,这种类型的大多数模型的特定预测对于所做的特定建模假设来说是脆弱的——它们指出需要考虑长期动态,但不能为如何导航它们提供可靠的指导。这里需要做更多的工作。
最后,决策通常分布在有着不同目标且不一定协调的大量参与者之间。在这样的环境中,我们不能直接控制决策过程,重要的是要考虑如何激励理性的代理以我们认为公平的方式行事。研究者对这项任务进行了初步尝试,展示了如何在一个简单、风格化的环境中,使用小额货币支付来激励个人公平的特定概念。但是,对于其他公平的概念,以及在更复杂的环境中,这应该如何工作呢?这可以通过控制信息流来实现,而不是通过货币支付来实现(货币支付在各种与公平相关的设置中可能令人不快)?这里也需要更多的工作。最后,研究者提出了分类中公平性的福利最大化观点,并描述了施加额外的统计公平约束的成本。但这是在静态环境中完成的。在动态模型下,结论会怎样变化?
公平性问题通常会在现有训练数据已被偏见污染的情况下出现。数据本身往往是社会和历史过程的产物,这些过程对某些群体不利。当对这些数据进行培训时,现成的机器学习技术可能会重现、强化并潜在地加剧现有的偏见。了解数据中的偏见是如何产生的,以及如何纠正偏差,是机器学习中公平性研究的基本挑战。
纠正数据偏见通常需要了解度量过程是如何产生偏见的,或者对数据在“无偏见”世界中满足的特性进行判断。研究者将其形式化为在数据中观察到的空间特征和不可观察的构造空间特征之间的分割,这些构造空间特征构成了决策所需的基础。在这个框架内,数据修正工作试图消除驱动这些空间之间差异的偏见机制的影响。如果偏见机制不能从经验上推断,任何纠正工作都必须明确其对该机制的基本假设。关于构造空间,究竟假设了什么?构造空间和观测空间之间的映射何时可以学习和反转?纠正会促进哪种形式的公平,代价是什么?成本通常是立即呈现的,而收益则不那么具体。我们将直接观察预测精度的下降,但任何收益都取决于这样一种信念,即我们首先不应寻求精确复制观测到的世界。这是一个领域,从因果关系的工具可以提供一个原则性的方法来绘制关于不可观察的反事实“公平”世界的有效推论。
公平表征学习是一个使数据消除偏见的过程,它产生原始数据的转换(中间表示),在删除有关敏感或受保护属性的信息的同时尽可能保留与任务相关的信息。这是一种将有偏见的观测数据转换为构造空间的方法,在该构造空间中,受保护的属性在统计上独立于其他特征。首先在研究者的工作中,公平表征学习产生一个无偏见据集,原则上可供其他方使用,而不会有产生任何不同结果的风险。
现有理论表明,公平表征学习的公平促进效益关键依赖于转化特征和保护特征之间的现有关联被去除的程度。如果敌对的下游用户的模型比最初用来混淆数据的模型更强大,那么他们可能能够恢复受保护的属性信息。这对公平表征的生成者,以及负责证明所得数据合理使用的审计员和监管机构都提出了挑战。需要更多的工作来理解公平表征学习在现实世界中促进公平的含义。
虽然机器学习中关于公平性的大部分工作都集中在批量分类上,但是批量分类只是机器学习任务的一个方面。很多机器学习——例如在线学习、bandit learning和强化学习——都集中在动态设置上,在动态设置中,算法的动作反馈到它观察到的数据中。这些动态设置捕获了许多需要考虑公平性的问题。例如,借贷、犯罪累犯预测和连续的药物试验都是所谓的bandit learning问题,在这些问题中,算法无法观察到与反事实相对应的数据。我们看不出,没有贷款的人是否会还清贷款。我们看不出一个没有假释的囚犯是否还会犯下另一个罪行。我们看不到病人对不同药物的反应。
在分类之外的机器学习任务中,有关公平文献相对稀少。这应该得到改正,因为在其他环境中会出现一些有趣和重要的公平性问题,尤其是在任务选择的个体集合上存在组合限制时,或者在需要学习的时间方面。
curton 2019-11-16 19:26