机器学习社区的一个目标是开发的机器学习系统,一旦被引入社会环境,就可以实现公平性。计算机科学中如抽象和模块化设计用于定义公平和歧视的概念,以产生公平感知学习算法,并在决策模块流程的不同阶段进行干预产生“公平”的结果。然而,在本文中,作者认为这些概念使技术干预无效,不准确,当他们进入时可能会被误导。围绕决策系统的社会背景,我们用五个“陷阱”来概述这种不匹配,即机器学习系统可能会有歧视甚至因为它是具有上下文意识传统的数据科学。作者通过借鉴社会技术系统的研究,在科学技术研究中解释为什么会有这样的“陷阱”发生以及如何避免它们。最后,作者通过绘制抽象界限(abstraction boundaries),在不止纯粹的技术因素方面,还在社会因素角度上,给出了在设计过程中避免“缺陷”的方式和建议,而不是提供解决方案。
背 景:
在刚入门学习计算机科学时,我们便了解到一个系统可以被描述为一个黑盒,由系统的输入、输出以及它们之间的关系精确定义该系统,描述该系统的理想特性。至此,系统内部的结构和输入输出的来源已经被抽象掉了。
机器学习系统的设计和构建旨在实现具体目标和绩效指标,如AUC,精确度和召回率等而忽略其算法的公平性。到目前为止,公平感知机器学习领域(fair-ML)一直致力于通过使用公平性本身作为黑盒系统的属性来设计更公平更公正的机器学习算法和模型。目前已有很多相关工作提出了公平性的定义,并基于给定的硬约束或公平度量产生最佳近似的公平保障,本文作者认为这些工作都仅限于一些特定领域的系统,而非较为通用的方法。本文认为系统的不公平往往是由于忽略抽象出其社会背景导致的,本篇文章给出了五种失败模式错误(failure modes of abstraction error),被称为框架陷阱(Framing Trap), 可移植性陷阱(Portability Trap),形式陷阱(Formalism Trap), 波纹效应陷阱(Ripple Effect Trap), 和解决方案陷阱 (Solutionism Trap)。这些陷阱都是缺乏对社会背景如何与不同形式的技术交叉的理解导致的,因此了解系统背后的社会背景对保障一个机器学习系统的公平是很重要的。
抽象陷阱(The Abstraction Traps):
抽象对计算机科学尤其是机器学习至关重要。广义上,社会背景被抽象以便可以应用机器学习。 下面解释了五种不同的陷阱:由于未能正确解释或理解技术系统与社会背景之间的相互作用而导致的失败模式(failure modes of abstraction error)。
1. 框架陷阱(Framing Trap):是指未能对整个系统进行建模,在该系统上将实施社会标准,例如公平性。机器学习中最常见的抽象包括选择表示(of data)和标记(of outcomes),这些构成了对算法框架的描述,算法的功效被评估为与输入相关的输出属性,如算法是否能够提供良好的训练数据准确性,以及对同一分布中看不见的数据具有良好的普遍性,本文将其称为框架的端到端的属性。然而在算法框架中抽象往往是给定的,并且很少被询问有效性,低质量的抽象就是造成该类缺陷的主要原因。
2. 可移植性陷阱(Portability Trap):如果不了解如何针对一个社会环境进行算法解决方案的设计,则在应用于不同的环境时可能会产生误导,不准确或其他方面的损害,该类问题被称为可移植性陷阱。陷入框架陷阱的一个原因是因为计算机科学文化很有价值并且经常要求可移植性。有目的地设计为尽可能抽象,被认为更有用(因为它是可重用的),技巧,优雅或美丽。几乎所有受过计算机科学家或工程师培训的人都强烈要求这种必要性,并建议设计首先旨在创建独立于社会背景的工具。在机器学习领域更为显著,从任务性质就抽象为分类任务,聚类任务,强化任务和回归任务等,从代码角度来说,大量工具代码库是鼓励可移植性的。然而在不同的社会背景下,往往会造成可移植性陷阱。
3. 形式陷阱(Formalism Trap):没有考虑公平性等社会概念的全部含义,这些概念可以是程序性的,语境性的和可竞争性的,并且不能通过数学形式来解决。在公平机器学习文献中最受关注的问题是公平的定义。其任务是在数学上定义社会公平的基本概念,以便将公平理想融入机器学习。如费尔德曼等人,将平等就业机会委员会(EEOC)80%的规则正式化为正式的偏见度量,他们称之为不同的影响。将问题限制在数学公式中会在实践中产生两个明显的问题。首先,没有办法使用纯数学方法在不可调和的冲突定义之间进行仲裁。形式化的第二个问题源于没有定义可能是描述公平性的有效方式。公平和歧视是哲学家,社会学家和律师长期争论的复杂概念。它们有时是程序性的,上下文的和政治上可竞争的,并且每个属性都是概念本身的核心部分,并非完全形式化的。
4. 波纹效应陷阱(Ripple Effect Trap):未能理解将技术嵌入现有社会系统如何改变现有系统的行为和嵌入值(embedded)。当技术被应用到社会环境时,它既有专门的作用但也有意想不到的后果。意想不到的后果之一是系统中的人员和组织对干预作出反应的方式。为了真正理解技术的引入是否会改善公平性结果,不仅需要了解如上所述的本地化公平性问题,还要了解技术如何与已有的社会系统相互作用。
5. 解决方案陷阱 (Solutionism Trap):未能认识到问题的最佳解决方案可能不涉及技术的可能性。因为公平机器学习植根于计算机科学,往往会产生没有技术干预就没有系统的概念。有两种情况,第一种是可能从技术开始就是错误的方法,或者更确切地说,无论迭代多少次,有多少近似值,建模情况都不会有效。第二种是当所需的建模如此复杂以至于在计算上难以处理时,技术已经不足以解决问题了,强行运用只能造成浪费。
对公平机器学习的建议:
1. 在研究初期,需要对相关的社会背景及其政治(解决主义)有细致的理解;
2. 以可预测的方式影响社会背景,使得技术解决后的问题在引入后保持不变(涟漪效应);
3. 能够恰当地处理对公平性等社会要求的强烈理解,包括对程序性,语境性和可竞争性的需求(形式主义);
4. 能适当地模拟了其部署的实际环境的社会和技术要求(可移植性);
5. 构建异构框架(heterogeneously framed),以包括与本地化公平问题相关的数据(技术)和社会因素影响因子(社会)。
引用:Selbst A D, Boyd D, Friedler S A, et al. Fairness and abstraction in sociotechnical systems[C]. Proceedings of the Conference on Fairness, Accountability, and Transparency. ACM, 2019: 59-68.