最近,机器学习的公平性受到了相当多的关注。目前已经提出了各种衡量公平的数学公式,并且已经表明机器学习不可能同时满足这些公式。到目前为止,众多文献通过量化不同公式的权重来处理这个结果。我们的研究在这个问题上有不同的看法。我们不是要求同时(或部分地)满足所有公平概念,而是考虑哪一个应用到部署决策模型的社会领域最合适。我们采取描述性的方法确定最能体现人们对公平感知的概念。我们做一个适应性实验——通过少量测试确定与每个参与者的选择最兼容的公平概念。令人惊讶的是,我们发现公平性的最简单的数学定义——即人口统计——在两个不同的应用场景中最能与人们的公平观念相匹配。即使我们明确告诉参与者关于公平的其他概念,更复杂的定义,并且减少他们了解这些概念的认知负担,这个结论仍然成立的。我们的研究结果对于Fair ML文献和关于形式化算法公平性的研究具有重要意义。
机器学习工具越来越多地用于为人类做出相应的决策,例如信用贷款,社会治安,刑事司法和医疗。这些算法做出的决定会对人们的生活造成深远影响,并可能对某些个人或社会群体产生负面影响。这种现象最近产生了一个活跃的研究领域——量化和保证机器学习的公平性。
尽管最近对Fair ML的研究兴趣激增,但对于(不)公平的准确定义尚未达成共识。现在已经提出了许多关于公平性的数学定义,包括人口统计,不同的影响,赔率相等和校准。虽然这些概念中的每一个都有吸引力,但已经表明它们彼此不相容。目前,文献通过试图量化不同公平公式之间的权重来处理这个结果,希望能够更好地确定违反每个公平标准在多大程度上可以被社会容忍。
我们的工作对这些不可能性结果有不同的看法。我们认为公平是一种高度依赖于环境的理想观念,并且取决于决策模型应用的社会领域,一种公平的数学概念在道德上可能比其他替代方案更可取。因此,我们不是要求所有(部分地)公平的概念同时满足,而是确定最适合特定领域的公平概念。因为算法预测最终影响人们的生活,我们认为最合适的公平算法是反映人们在特定环境中的公平。因此,我们采用描述性的道德方法来确定最接近于人们对公平的看法的数学概念。
我们的主要目标是检验以下假设:1
•H1:在累犯风险评估的背景下,大多数受试者的反应与人口统计群体中的假正/负例率相等。
•H2:在医学预测的背景下,大多数受试者的反应与人口统计群体的准确率相等。
•H3:当决策风险很高时(例如,当算法预测影响人们的预期寿命时),参与者相对于公平性来说对准确率更敏感。
第一个假设受到媒体对COMPAS犯罪风险评估系统的报道及其对非裔美国被告的潜在偏见的启发。我们提出第二个假设是因为人们越来越关注医学实验,但实验主要是以白人男性为主要实验对象进行的,因此,结论只对该特定人群有可靠。这种偏见只能通过机器学习来放大。第三个假设探讨了不平等与准确率之间的关系。
为了确定与参与者对公平感知的最相容的公平概念,我们设计了一个基于主动学习的适应性实验。每个参与者都需要回答最多20个适应性选择的测试——所有测试都涉及一个固定的,精心指定的情景(例如,预测被告未来犯罪的风险)。每个问题都指定了十个假设决策主体的基本事实标签,以及两个假设预测模型/算法为其预测标签(见图1)。然后提示参与者选择他们认为更具歧视性的两种算法中的一种。测试由主动学习算法EC2选择。根据参与者的选择,EC2算法选择下一个测试。需要注意的是,通过少量测试来确定最兼容的概念需要主动学习方法。如果没有适应性设计,参与者必须回答数百个问题,然后我们才能有有信心指出与其选择最相符的公平概念。
我们在the Amazon Mechanical Turk(AMT)平台上进行实验,并给出了选择与每个公平的数学概念相匹配的参与者的百分比。我们还研究了这种情况如何因环境而异,因人口群体而异。令人惊讶的是,我们发现公平性的最简单的公平数学定义——人口统计——在两个不同的情景中最接近人们的公平观念。即使明确告知受试者有关公平性的替代物,更复杂的定义以及减少学习这些概念的认知负担,也会出现这种情况。我们的研究结果对Fair ML文献具有重要意义。特别是,它强调需要更全面地理解人们对预测模型公平性的态度。
总之,我们提供了这个道德问题的不同回答:“在特定的社会背景下,什么是最合适的公平的概念?”。我们的框架可以很容易地适应除了这样的研究场景之外的场景。随着Fair ML文献的不断发展,我们认为所有利益相关者(包括日常生活中被算法决策潜在影响的人)都必须在制定公平的过程中参与其中。我们的工作朝着这个目标迈出了第一步。毕竟,算法公平理论只有反映人们的正义感,才能对社会产生有意义的积极影响。
图1:我们实验中的一个代表性测试。每个测试都说明了两个预测算法(A1和A2)的预测结果以及十个假设的决策主体的真实标签。决策特征的种族和性别采用颜色编码。粉色/蓝色背景指定女性/男性决策主体。米色/棕色轮廓指定高加索/非裔美国人的决策主体。所有测试中决策主体的人口统计特征保持不变。利用该信息,参与者通过选择他/她认为具有歧视性的算法来响应测试。
2.1 相关工作
关于算法公平性的许多现有工作一直致力于二元分类的歧视研究(也称为统计级或组级公平)。统计概念要求特定的指标——量化利益或损害——使在不同的社会群体(例如,性别或种族群体)之间是平等的。有益指标的不同选择导致了不同的公平标准;例如人口统计(DP),错误相等,假正例率或假负例率的平等(分别为FPP和FNP),以及错误发现或遗漏率。人口平等原则旨在平衡不同群体中预测为正类的人的百分比。假正例率或假负例率的平等要求错误预测为正/负的人在属于每个组的真正类/负类个体中的百分比是相同的。错误发现/遗漏率的平等旨在平衡每组中预测为正/负的个体中的假正例/负例预测的百分比。有关这些公平概念的每个概念的准确定义,请参见表1。
表1:与每种公平概念相对应的利益/损害的衡量标准。对于属于G组的决策主体i,yi指定他/她的真实标签,
为他/她预测的标签。nG是G组的人数。
继Speicher等人之后,我们通过使用不平等指数,特别是广义熵指数,将这些现有的公平概念扩展到不公平的衡量标准。给定对所有组G = 1,...,N计算的有益向量b,广义熵(指数α= 2)计算如下:
其中,
是所有组的平均收益。
在伦理学中,有两种不同的方法来解决道德困境:描述性方法与规范性方法。规范伦理涉及制定或评估道德标准,以决定人们应该做什么,或者他们当前的道德行为是否合理。描述性(或比较性)伦理学是对个人或群体关于道德和道德决策的态度的实证研究形式。我们的工作属于描述性类别。之前几篇论文对算法公平性采取了规范性的观点。例如,Gajane和Pechenizkiy试图将算法的公平概念作为现有正义理论的实例。Heidari等人提出了一个用于评估不同公平概念的框架,将其作为机会均等经济模型的特例。我们强调,没有简单的、广泛接受的、规范的原则来解决算法公平的道德问题。
最近的几篇论文通过人类主体实验实证研究了公平性和可解释性问题。下面我们详细介绍一下这个方向上的一些先前的研究。麻省理工学院的机器学习工具——道德机器提供了一个众包平台,用于汇总人们对自动驾驶汽车如何在面对道德困境时做出决策的意见。对于相同的北京,Noothigattu等提出学习个体偏好的随机效用模型,然后通过社交网络有效地聚合这些个体偏好。与这些论文类似,我们通过要求从道德的角度比较两种选择来获得参与者的意见。Noothigattu和Lee等重点关注人类偏好建模,并利用社会选择理论中的工具对其进行聚合。相比之下,我们的主要目标是理解人类感知与最近提出的公平数学公式之间的关系。
Grgic-Hlaca等研究人们为什么认为使用某些特征在对个体进行预测时是不公平的。宾斯等研究人们在不同解释风格和高水平下的算法决策下对公平的看法,表明可能没有“最佳”方法来向人们解释算法决策。Veale等采访公共部门的机器学习从业者,讨论将公共价值的挑战纳入其工作。霍尔斯坦等人通过访谈,对商业产品团队在开发更公平的机器学习系统方面的挑战和需求进行系统调查。与我们的工作不同,Holstein等人的工作重点是非专业人士和潜在的决策主体,Veale等研究机器学习从业者对公平的看法。
最近几篇关于人机交互的论文研究了用户对算法公平性的期望和看法。Lee和Baykal研究了人们对公平分类算法的看法(例如,那些旨在考虑收租户多少租金的人)与基于讨论的群体决策方法相比较。伍德拉夫等在美国与某些边缘化群体(按种族或阶级)的参与者进行研讨会和访谈,以了解他们对算法不公平的反应。
据我们所知,以往的工作没有进行过实验,目的只是将现有的群组公平定义与人类对正义的看法相对应。Saxena等调查普通人对贷款决策背景下三个个体公平概念的态度。他们研究了以下三个概念:1)类似地对待相似的个体,2)从不偏袒任何类型个体,3)批准的概率与代表最佳选择的个体的机会成正比。
为了测试H1和H2,我们在AMT上进行了人类主体实验,以确定哪个现有的群体公平概念能够最好地体现人们在特定社会背景下的公平观念。对于我们的最终假设H3,我们设计了简短的调查问题。
3.1用户接口
在我们的实验中,每个参与者被要求最多回答20次测试。在每个测试中,我们向参与者展示了两个预测算法对十个假设个体的预测以及真实标签(见图1)。我们重点关注由具有相同准确率的算法组成的测试上,以控制准确率对人们感知的影响。我们要求参与者指定他们认为哪种算法更具歧视性。适应性选择测试仅使用少量测试来找到与参与者的选择最相容的公平概念。然后要求参与者为他们的选择进行解释。为了得到参与者的解释,我们设计并测试了两种不同的用户界面(UI)。第一个UI向参与者显示一个文本框,允许他们为他们的选择提供非结构化的解释。第二个UI要求参与者提供结构化说明,它包含两个下拉菜单。在第一个下拉菜单中,参与者必须选择他们认为算法最具歧视性的人口统计特征(即性别,种族或两者的交集)。在第二个下拉菜单中,他们选择了认为算法最具歧视性的度量标准。为了减少认知负担,我们计算了与每个公平概念相对应的效益度量,并在第二个下拉菜单中显示。见图2。
我们通过两轮试点研究验证了我们的界面设计——一个是内部(我们研究组成员之间),另一个是AMT(20个群众工作者)。我们在内部运行后进行了一些小的更改,以提高任务描述的可读性。AMT试点参与者发现我们的第一个用户界面(带有文本说明的用户界面)限制性较小且更易于使用,因此我们使用该界面将每个方案的实验扩展到100个人。
3.2实验场景
我们针对两个不同的预测任务进行了实验:犯罪和皮肤癌风险预测。下面我们准确地描述每个场景,展示给研究参与者。
犯罪风险预测。在美国,越来越多地采用数据驱动的决策算法来预测被告未来犯罪的可能性。法官利用这些算法预测作为被告的量刑参考(例如,确定保证金金额;在监狱中服刑的时间)。数据驱动的决策算法使用被告过去的历史数据来了解与犯罪高度相关的因素。例如,该算法可以从过去的数据中学习:1)具有较长犯罪历史的被告如果被释放则更有可能重新犯罪——与第一次犯罪者相比,或2)属于某些群体的被告(例如,居民)如果被释放,在犯罪率高的社区更有可能重新犯罪。然而,算法并不完美,并且它们不可避免地会产生错误——尽管错误率通常非常低,算法的决定会对一些被告的生活产生重大影响。被告被错误地预测以后会重新犯罪可能会不公正地面临更长的刑期,而被告被错误地预测不会重新犯罪可能会犯下可预防的罪行。
皮肤癌风险预测。数据驱动的算法越来越多地用于诊断各种医学病症,例如心脏病或各种癌症的风险。他们可以在医疗记录中找到以前需要大量专业知识和时间才能找到的记录。然后,医疗人员使用算法诊断来为患者创建个性化治疗计划(例如,患者是否应该接受手术或化疗)。数据驱动的决策算法使用有关过去患者的历史数据来了解与癌症风险高度相关的因素。例如,该算法可以从过去的数据中学习:1)具有皮肤癌家族史的患者患皮肤癌的风险较高;或2)属于某些群体的患者(例如,具有某种肤色的人或具有某种性别的人)更可能患上皮肤癌。然而,算法并不完美,并且它们不可避免地会产生错误——尽管错误率通常非常低,但算法的决定会对患者的生活产生重大影响。误诊为高风险癌症的患者可能会不必要地接受高风险且昂贵的医疗治疗,而被错误地标记为癌症风险低的患者可能面临较低的生存几率。
3.3 适应性实验设计
我们每次实验都在一组噪声测试中顺序选择并观察参与者对它的响应。这些测试对于参与者来说是耗时的,并且很快就会变得重复。因此,为了限制每个参与者的测试次数,我们采用了Golovin等人提出的主动学习方案。这样我们能够确定每个参与者选择的最兼容的公平概念,每个参与者最多进行20个测试(参见图3)。该算法称为EC2(用于等价类边缘切割算法),可以处理噪声观测,其预期成本与最优序列策略的成本相当。
图3:自适应随机测试选择的优势。对于四个公平概念中的每一个,我们模拟一个参与者,他遵循这个概念——由我们的嘈杂响应模型定义——进行1000次测试。(顶部)使用随机测试序列,在我们获得一个假设的高可能性之前,至少需要进行600次测试。(下图)使用我们的自适应测试选择方法,只需要进行大约20次测试,以确定参与者遵循的公平概念的高可能性。
EC2算法 在较高的层次上,算法的工作原理如下:它为每个公平概念指定一个等价类。在我们的设定中,我们有四个等价类,表示人口统计(DP),错误平等(EP),错误发现率平等(FDP)和假负例率(FNP)。我们使用符号h1,h2,h3,h4分别表示这些概念。我们在h1,...,h4之前假设一个统一的先验。
设τ表示我们可以运行的所有可能测试的数量。在我们的例子中,τ= 9262.我们假设所有测试的成本是一致的。每个测试的结果是二元的(参与者选择两个算法中更具歧视性的一个),因此将有2τ个可能的测试结果,其中测试结果概况指定所有τ测试的结果。对于每个测试结果概况,EC2计算使该结果概况的后验概率最大化的公平概念;我们称之为结果概况的MAP公平概念。EC2将每个结果概况放在与其MAP公平概念相对应的等价类中。
EC2在属于不同等价类的任何两个结果概况之间引入边。随着算法的进行,一些边被删除,在没有边时终止。
贝叶斯更新。设T表示所有可用测试的集合,A表示已在前面的步骤中执行的测试集。设Ot =表示当前给出的测试结果,用t(即Ot∈{A1,A2})和o表示。A中测试结果的向量。然后在每一步选择测试t∈T-A使以下目标函数最大化:
通过我们在AMT上的实验,我们收集了一个数据集,其中包括
•100名参与者对我们的犯罪风险预测方案测试的结果;
•100名参与者对我们的皮肤癌风险预测方案测试的结果。
我们要求参与者提供他们的个人信息,例如他们的年龄,性别,种族,教育和政治派别。提出这些问题的目的是了解不同人群对公平性的看法是否存在显着差异.
表2总结了我们参与者的个人信息,并将其与2016年美国人口普查数据进行了对比。一般而言,AMT工作人员不是美国人口的代表性样本(他们通常属于特定人群——互联网行业并愿意在线完成众包任务的人群)。特别是,对于我们的实验,与美国普通人群相比,参与者更年轻,更有活力。
4.1定量结果
对于犯罪风险预测方案,图5显示了参与者的回答与每个公平概念兼容的参与者数量,以及EC2算法将其置于该类别中的置信度。人口统计最好地体现了大多数参与者做出的选择。癌症风险预测方案的趋势类似。有关摘要,请参阅表3。
对界面的敏感性。为了测试我们的研究结果对用户界面设计的敏感性,我们尝试(以较小的规模,有20名参与者)用一个界面引出参与者的结构化解释。界面明确显示h1,...,h4之间的差异。通过这个界面,我们促使参与者思考感兴趣的公平概念,并减少学习这些概念的认知负担。我们观察到,即使在这种新情况下,大多数参与者做出的选择最能通过人口统计来获得。对于犯罪预测情景,20个参与者中有17个与DP相匹配,而对于癌症预测情景,这个数字是20个中的9个。
性别,种族,年龄,教育和政治观点的变化。我们没有观察到跨任何人口统计属性的显着差异。对于犯罪风险预测方案,DP可能性高(> 80%)的受试者百分比如下:
•女性为78%,男性为79%;
•高加索人82%,非高加索人72%;
•80%为自由派,74%为保守派;
•没有大学/大学学位的参与者为77%,其余为79%;
•年轻参与者(年龄<40岁)为78%,年龄较大的参与者为81%。
4.2 定性结果
表4显示了每个类别参与者提供的几种解释实例。例如,给一个被我们的系统分类为错误平等假设的参与者提供了一个解释,其侧重于人口统计组内的准确率。这些解释证明了参与者能够在自由文本中提供与数学公平概念一致的解释,而不会被提示考虑这些统计定义。
参与者提供的自由文本解释向我们介绍了他们的决策过程,以及为什么少数参与者无法被归类为四个概念中的任何一个。图7比较了两个参与者的决策过程一个被分类为具有高置信度的人口统计,另一个参与者没有被归类为任何指标。后者的解释因时间而异,从考虑假负例率到人口统计群体内的准确率。这些不一致的解释支持我们的系统无法高度自信地分配公平概念。
图7:两个不同参与者的轨迹,一个在DP上具有高的最终可能性,一个在任何公平概念上具有低的最终可能性。前一参与者提供的解释证明了与人口统计相一致的解释的一致性 - 在不考虑真实标签的情况下解决预测问题。后一参与者提供的解释表明不同公平概念之间存在不一致。
为了测试H3,我们向参与者展示了三种算法,每种算法在准确性和平等性之间提供不同的权衡。我们要求参与者选择他们认为更符合道德标准的人。对于医疗风险预测的情况,我们针对两种不同情况进行了此调查:1)预测皮肤癌(高风险)的风险,并预测流感症状(低风险)的严重程度。我们假设当代价很高时,更多的参与者会选择高的总体准确率(即A1)而不是低的准确率(即A3)。同样,对于刑事风险评估的情况,我们对高风险(用于确定监禁时间的预测)和低风险情景(用于设定保释金额的预测)进行了调查。下面我们准确地列出调查问卷因为它们被呈现给调查参与者。
皮肤癌风险预测。数据驱动算法越来越多地用于筛选和预测各种形式的疾病(例如皮肤癌)的风险。他们可以在医疗记录中找到以前需要大量专业知识和时间才能找到的知识。然后,医疗专业人员利用算法预测为患者创建适当的治疗计划。假设我们有三种皮肤癌风险预测算法,并希望决定应该将哪一种用于医院的患者癌症筛查。每种算法都具有特定的准确度 - 其中准确度指定算法进行正确预测的主体的百分比。请参阅表5.请注意,如果部署的算法出错,患者的生命可能会受到严重影响。错误地预测患有皮肤癌高风险的患者可能不必要地经历高风险和昂贵的医疗干预,而被错误地标记为皮肤癌低风险的患者可能面临显着更低的预期寿命。从道德的角度来看,您认为以下三种算法中的哪一种更适合在现实世界的医院中部署?
流感病毒严重情况预测。据驱动算法越来越多地用于筛选和预测各种形式的疾病(例如皮肤癌)的风险。他们可以在医疗记录中找到以前需要大量专业知识和时间才能找到的知识。患者可以利用算法预测来决定是否去看医生他们的症状。假设我们有三种不同的算法来预测患者的流感症状的严重程度,并希望决定在现实世界中应该部署哪一种。每种算法都具有特定的准确度 - 其中准确度指定算法进行正确预测的主体的百分比。请注意,如果部署的算法出错,患者将暂时受到负面影响。错误地预测患有严重流感症状的患者可能不必要地寻求医疗干预,而被错误地标记为仅发展为轻微症状的患者可能必须在更长的时间段(最多两周)内应对严重的症状。
图9和8显示了选择每种算法的参与者数量。正如假设的那样,当赌注很高时,参与者对准确性的权重更高,对不平等的权重更低。
我们实验的主要结论是,人口统计因素最能反映人们对公平的看法。我们的调查显示,当代价很高时,参与者认为准确性比公平更重要。最后,AMT的参与者发现这项任务吸引人且信息丰富,而一些人认为,更多关于算法和决策主题的背景将有助于他们做出更明智的选择。来自用户的反馈,如表6所示的例子,表明我们的任务鼓励用户思考应该考虑哪些因素的算法决策系统,并反映社会中歧视性算法的使用。
6.1 限制
我们工作的主要目标是找出现有的最能反映出人们在特定背景下对公平的看法的公平概念。我们认为至少有一个概念是人类判断的良好表现,至少在我们呈现给他们的高度复杂化的环境中是如此。我们承认现实世界中的场景总是更加复杂,有许多因素影响人们对形势的判断。现有的关于公平的数学概念比较起来非常简单,它们永远不能反映所有的细微差别。我们的工作决不是最终判断,而是从普通人的角度更好地理解公平和正义。
从参与者那里获得有意义答案的一个障碍是参与度。在AMT上,很难监控参与者对任务的关注。我们特别关注参与者选择答案的可能性,而没有仔细考虑他们面前的所有因素——在最坏的情况下,完全随机。我们通过以下方式阻止了这一点:
•以99%的批准率限制参与者。
•将测试次数限制为最多20次。
•要求参与者提供他们选择的解释。
•限制参与者最多完成一次任务。
与任何实验一样,我们无法完全排除框架的潜在影响。我们尝试了两种不同的用户界面,我们的发现对这种选择很有用。然而,这并不意味着不同的实验设置不能得出不同的结论。特别是,在我们的实验中,参与者在选择算法时没有个人利益,如果他们可以通过他们选择的算法成为决策的主体,他们可能会有不同的反应。在我们的所有测试中,我们将注意力聚焦在两个具有相似精度的预测模型上。如果提交给他们的两个模型在准确性方面有所不同,那么参与者对歧视的看法会如何变化?我们将研究准确性的作用留给未来的工作。
6.2未来方向
我们的研究结果对Fair ML文献具有重要意义。特别是,它们强调需要更全面地理解人类对算法公平的态度。算法决策最终将影响人们的生活,因此,让人们参与选择正确的公平概念的过程至关重要。我们的工作朝着更广泛的目标迈出了第一步。未来工作的方向包括但不限于以下内容:
•为主体提供有关算法决策主题和每种算法内部工作流程的更多信息;量化这种额外背景如何影响他们对算法公平性的评估。
•向主体提供有关非算法替代方案的信息(比如成本,准确性和人类决策的偏见)
•探索不同层面的公平性考虑因素;人们对个人或团体级别的不公平性更敏感吗?
•研究个人赌注的作用;如果人们可能会受到算法决策的个人影响,那么人们会不同地评估算法的公平性吗?
•研究参与者专业知识的影响;法律和歧视方面的专业知识是否从根本上改变参与者的反应?
curton 2019-11-17 15:14