人们所接触的信息越来越多地被算法系统影响,并影响有关就业、财务和其他机会的决策。在某些情况下,算法系统可能或多或少地对某些群体或个人有利,这引发了公共政策界、学术界和新闻界对算法公平性的大量讨论。我们通过探索可能受影响社区的成员对算法公平性的看法来扩大讨论范围。我们与44名来自美国传统上被种族或阶级边缘化的人群的参与者举办了研讨会和采访。虽然他们在很大程度上对算法公平的概念是不熟悉的,但是了解算法公平会引发负面情绪,这与当前国家关于种族不公正和经济不平等的讨论有关。除了对自身和社会潜在危害的担忧之外,参与者还表示算法公平性(或缺乏公平性)可能严重影响他们对公司或产品的信任。
2.1 算法公平性
为了研究算法公平性,我们利用并寻求在科学技术研究(STS)、人机交互、数学和相关学科领域扩展新兴思路。对算法公平性的研究涉及广泛的问题,例如,在某些情况下考虑离散决策及其对个人的影响,以及在其他情况下探索与群体相关的更广泛模式传统上在社会中被边缘化。我们的重点倾向于后者,与我们的调查特别相关的是关键算法研究中所采用的观点,它阐明了算法在社会中日益增长的影响,并主要侧重于将算法理解为社会关注的对象
学术以及大众媒体上的文章通过算法系统或算法辅助决策,记录了基于种族,性取向或性别等类别的不公正或偏见处理对人的特定情况。例如,佩雷斯报道微软的Tay(人工智能聊天机器人)遭受了协调攻击,导致其表现出种族主义行为;图像搜索或预测搜索结果可能会加剧或夸大与种族,性别或性取向相关的社会偏见或负面刻板印象;Facebook活动可能用于计算非监管信用评分,这可能会使较少特权的人群处于不利地位;Edelman等在Airbnb上进行了实验,并报告说,相对于具有鲜明白名单的相同客人,来自非洲裔美国人名字的客人的申请被接受的可能性降低了16%;Colley等人发现神奇宝贝有利于城市、白人、非西班牙裔人群,可能会吸引更多的旅游商业到他们的社区;Johnson等人发现地理定位推理算法对于代表性不足的人群,即农村用户,表现得差得多。
这种公众意识得到了法律和监管方面的重视。例如,即将出台的欧盟通用数据保护条例包含一篇关于“自动化个人决策”的文章。然而,算法公平性对仍然处于萌芽阶段的法律带来了许多复杂性和挑战。为了研究系统是否遵守新的法律,法规和道德标准的算法公平性,已经要求了测试和透明度。已经提出了各种技术来仔细检查算法,如模型可解释性、审计、专家分析和逆向工程。然而,调查很复杂,因为各种潜在原因(偏见、结构偏见、培训数据的选择、人类行为与机器学习模型的复杂互动、在线招标过程中不可预见的供需效应等)以及有时难以理解的机器学习系统的不透明性。实际上,现有的离线歧视问题在某些情况下可能会加剧并且一旦在在线系统中出现就更难调查,并且新的偏见不仅基于不可变特征,而且可能出现比传统的歧视性进程更难以发现的更微妙的特征。
不透明度和复杂性不仅使专家分析变得复杂,而且还可能使利益相关者难以理解算法系统的后果。许多提议的审查算法机制对公众,监管机构和其他利益相关者做出了某些假设。然而,研究发现,算法系统的感知可能因个体因素和平台而有很大差异,并且最终用户经常对其操作的技术细节存在基本问题或误解,对于弱势群体而言,这种影响可能会加剧。例如,研究发现,一些参与者并不知道Facebook新闻Feed中的算法策划或在线行为数据的收集及其用于推理,或低估了数据收集的普遍性和规模及其在实际应用中的应用。此外,参与者经常强调人类决策在算法系统中的作用,例如,将Facebook新闻Feed中的算法策划错误地归因于他们的朋友和家人采取的行动,或将算法框架化为支持人类的类似计算器的工具决策。
尽管现有关于算法读写的研究,但很少有研究探索对算法(不)公平性的理解,很少有人了解一般公众,特别是受算法不公平影响的人如何看待它。
2.2 方法1 研讨会
在参加研讨会形式时,我们利用人机交互内外的传统,包括参与式行动研究,参与式设计和生活实验室的计划。在人机交互和设计研究的背景下,研讨会方法通常寻求邀请公众参与设计实践,同时探索相互关联的技术价值观和信念,提出替代技术和结果。注意到该方法的协作性和位置性,Rosner等将设计研讨会描述为“将协作和跨学科的处理作为一种本地化和富有想象力的实践”。这些活动依赖于研究人员和学科/合作伙伴之间的精心合作,跨学术或工业研究中心和社区团体等网站,每个网站都有自己的工作目标。相关地,对公众理解科学的研究主张不对科学和技术做出正确的理解,强调不应将公众成员排除在技术民主决策之外,因为他们对技术的解释可能与技术专家的解释不同。从这个角度来看,我们将我们的研讨会参与者定位为他们日常生活中技术经验的专家——这一框架可以说明他们自己的知识与技术专家的不同,但不能少。
在20世纪80年代,人机交互学者Jungk和Müllert首先将未来研讨会描述为一种社会参与形式,其中涉及与公众成员组织活动,旨在更好地解决民主关注问题。类似于其政治根源,参与式设计是一种侧重于更积极地包括公众成员或设计过程中其他代表性不足的利益相关者的方法。这项工作的早期旨在根据数字化工作实践的引入以及在某些情况下劳动的自动化,支持工人自主权和对传统专业知识的理解。
更现代的参与性举措已经引起了工作或政府背景之外的关注,从探索替代食品系统到促进神经多样性儿童之间的游戏。还有一些人开发了设计研讨会,作为通过材料实践检查批判理论的一种手段,如制作和修补或用过的工艺来设想可能产生更公平的社会安排的替代期货。
在这里,我们通过报告我们使用研讨会格式作为研究工具,不仅了解参与者如何看待算法(非)公平性,而且还了解他们如何选择以不同方式构建平台,来建立参与式计划的遗产。由于主题的潜在敏感性,我们寻求对话式方法作为一种有用的技术,如参与式设计,用于协作处理复杂的想法(例如机器学习)和开发一个分享感受和意见的开放环境。我们将这些讨论和随后的想法视为未来技术和政策的发展以及与不同用户的沟通。
2.2.1 方法
为了更好地了解边缘化社区成员如何看待算法(非)公平性,我们与整个旧金山湾区的各个社区成员一起举办了参与式设计研讨会。 然后,我们于2016年7月至9月对选定的参与者进行了个别的后续访谈。
2.2.2 参会者
我们招募了44名回应了由国家研究招聘公司管理的筛查调查的成年人,该调查公司的受访者数据库包括旧金山湾区居民。参与者得到的时间补偿等于或高于其所在地区的生活工资。我们的招募重点是邀请传统上被社会经济地位或种族类别边缘化的个人,我们将参与者组织成五个研讨会:两个基于社会经济地位的、一个与参与者确定为黑人或非洲裔美国妇女的、一个包括黑人或非裔美国人或混合种族男女的,还有一个西班牙裔或拉丁美洲男女的研讨会。虽然我们的工作具有定性和非代表性,但我们预计我们所关注的选区大约占美国人口的40%至50%。
其中,考虑社会经济地位的主要因素是当前的家庭收入和教育水平。选定参与者的家庭年收入低于其所在县的生活工资 - 这一数额是根据Glasmeier的生活工资模型(livingwage.mit.edu,2016年7-8月访问)的粗略估计得出的。考虑到这一数额,我们考虑了被调查者在经济上照顾家庭中的成年人总数、成年人收入的数量、家庭中受抚养子女的数量以及家庭以外的儿童人数。参与者获得过的不仅仅是“一些大学”,这里定义为在没有获得副学士学位或学士学位的情况下长达4年的课程。作为有助于确定社会经济地位的次要因素,我们还考虑了受访者目前的职业和居住地,重点是了解受访者当前的经济状况以及基于近似资源的近期晋升机会。
对于剩下的研讨会,我们的招聘重点是根据他们在招聘筛选中的回应邀请有色人种。作为次要考虑因素,我们还考察了受访者的职业,略微强调了那些涉及护理或服务专业的人——他们的技术和专业知识往往在技术文化中未被认识到。
大多数参与者来自东湾和旧金山,年龄范围广(18-65岁),职业有公共交通司机、零售经理、特殊教育指导员、社区活动协调员、任务员、流水线厨师、工人、惩教和平人员,办公室助理,剧院助理等。
2.2.3 研讨会
每个小组参加了一个为期5小时的研讨会,其中包括以下议程:破冰船活动、关于算法(不)公平性的小组讨论、一顿饭、以三个案例为中心的设计活动和最后的小组讨论。出席每个研讨会的有6到11名参与者,2名作为推动者的研究人员和一名专注于文档的视觉人类学家。参与者了解Google参与该研究,研讨会在Google地点举行。在研讨会期间,我们注意鼓励参与者进行协作解释、解决问题和讨论,并为所有参与者分享他们的想法和意见。此外,由于认识到主题的情感复杂性,我们解释说可能存在敏感材料,参与者能够随意停止参与、坐下来参加活动或走出房间。
会前,我们要求参与者参加由反种族主义学者Peggy McIntosh的隐形背包练习启发的破冰活动,旨在开始讨论非对抗性中的歧视,权力和特权问题方式。在这项初步活动之后,研究人员简要介绍了算法和算法(不)公平性。广泛的讨论围绕着参与者的问题和算法(不)公平性的解释,参与者是否在研讨会之前了解过它或者曾经历过它,并分享对它的一般感受。请注意,在研讨会期间,我们使用术语“算法歧视”而不是“算法(不)公平性。”虽然“算法公平”经常被用作学术文献中的术语,但我们在本研究中的经验以及其他工作在我们的机构认为,在用户研究背景下,“公平”可能被过分狭隘地解释(例如,强调平等而非正义),因此我们倾向于在与参与者的对话中使用“算法歧视”。
在一天的大部分时间里,我们专注于一系列基于场景的三个设计活动。我们通过描述一个可以被理解为算法不公平的实例来开始每个场景,然后邀请参与者在简短的小组讨论中分享他们的初始反应。在这次讨论中,我们偶尔也会引入各种复杂性,例如暗示不公平的不同潜在原因。然后,我们要求参与者花10分钟单独工作,想出如果他们是负责响应情景的技术公司的决策者,他们可能会做些什么。我们告诉参与者他们可以使用他们认为最舒适的任何交流方式(绘画、故事写作、表演等)自由表达他们的想法。在他们工作并记录了他们的想法之后,我们作为一个团队一起回来进行讨论。
我们讨论的情景代表了广泛的问题。虽然这些方案基于与互联网相关的产品和服务,但我们也鼓励讨论其他领域,并且讨论经常扩展到可能出现算法不公平的其他领域。第一种情景描述了一名男子访问报纸网站并看到高薪工作的广告,而访问同一网站的女性则看到了低工资工作的广告;第二种情况是关于预测性搜索的结果(这一特征表明可能用户在搜索框中输入的搜索词可以被解释为对黑人和儿童作为罪犯的刻板印象;在第三个也是最后一个场景中,我们要求参与者考虑从在线餐厅审核和地图应用程序中将犯罪率高的社区中的企业排除在外的做法。
2.2.4采访
研讨会结束后,我们进行了约一小时的后续访谈,其中11名参与者在研讨会讨论期间特别参与。 访谈是半结构化的,问题集中在进一步了解参与者的关注点、意见和政策思路。
2.2.5 分析
所有访谈均录像。在我们的分析中,我们使用了一种通用的归纳法,依赖于原始数据的详细读数来推导与评估目标相关的主题。我们案例的主要评估目标是通过了解以下方面为算法公平性的技术和政策方法提供信息:(1)参与者对算法公平性的解释; (2)参与者对问责制的归属以及他们对利益相关者,尤其是公司的道德和务实期望。因此,我们在与参与者合作期间关注这些问题,然后我们通过密切审查文本和视频,执行文本引文和视频剪辑的亲和性聚类来共同分析研讨会和访谈中的数据,以识别新兴主题、制作使用视觉人种学方法合成关键主题的短片,并反复修改和完善类别。
2.2.6 局限
我们注意到在解释这项工作时应考虑的研究方法的一些局限性。首先,由于我们专注于传统的边缘人群,没有收集有关特权群体如何思考或体验算法公平性的数据。其次,我们的样本在统计上没有代表我们探索的人群。我们报告的调查结果应该被视为对我们样本的信念和态度的深入探索,而不是对这些人群的整体概括。第三,我们选择的情景以及我们选择使用术语“算法歧视”,虽然适当考虑到我们的重点,可能会影响参与者和其他公平的框架可能产生不同的结果。最后,因为我们在这项工作中涉及社会经济地位和种族,我们包括研究团队仅由受过大学教育的欧美研究人员组成的细节。我们用自己的语言描述参与者的经历,但我们的解释可能缺乏更多样化的研究团队可能更容易获得的背景或细微差别。
2.2.7 发现
不熟悉,但不是不可思议的
大多数参与者在参与研究之前并未意识到算法(不)公平的概念,尽管一旦有人报告,一些人报告说他们有过个人经历或在媒体上听说过。然而,大多数参与者报告了他们日常生活中歧视的广泛经验,并且他们将他们的个人故事与算法(不)公平的概念联系起来。
关于歧视的个人经历
大多数参与者报告了歧视和陈规定型观念的广泛负面经验。执法部门通常会提出不公平的待遇或种族形象定性,例如在黑人居民很少的富裕社区开车被警察拉下车、“白人特权”、高收入迫使低收入人群离开家园,食物沙漠(无法进入杂货店和健康)贫困地区的食物,以及低收入社区与污染和环境危害的接近程度、购物时接受差劲服务甚至被怀疑可能偷窃、被直接邮件作为目标(发送未经请求的广告)掠夺性贷款和其他不利的机会、被定型为“愤怒”等。许多人认为这些是普遍存在的问题,这些问题通常是从年轻时就构成了他们的机会和日常经历。
先前对算法不公平的认识
一旦向他们描述了算法的不公平性,一些参与者报告说他们已经意识到他们经历过多次(当然也可能体验却没有意识到),还有一些其他参与者表示他们熟悉媒体概念。
对算法不公平的反应
尽管大多数参与者在研究之前并未意识到算法的不公平性,但了解它会引起强烈的负面情绪,在其他环境中引发歧视的经历。 例如,参与者将算法不公平与关于种族不公正和经济不平等的民族对话以及失去个人进步的机会联系起来。
参与者还与个人故事和生活经历建立了联系。 例如,他们极力反对陈规定型观念,例如边缘化群体的负面在线表征,或基于人口统计特征进行个性化的在线广告或信息。同样,他们也认为根据具有类似特征的其他人的在线行为来个性化广告或信息是非常不公平的。 虽然乍一看这似乎与Plane等人的发现形成鲜明对比,在线行为广告被认为比明确的人口统计定位问题要少得多,但两个案例中参与者的潜在关注似乎与人口统计特征或其他敏感特征来个性化信息的使用有关。
尽管与其他生活经历的相似之处可能会导致最初的负面反应,但在研讨会召开时,与会者分享了细微而务实的观点,在讨论这个话题时,他们对其复杂性表示赞赏。
算法系统的规模和影响
尽管少数参与者表示相信大规模算法系统是现代社会许多方面的基础,但许多参与者认为算法系统的范围小、复杂性和影响低。这一点在许多参与者提出的解决方案中尤为明显,常强调技术公司的最终用户或员工的手工工作。例如,一些参与者建议,通过删除算法处理并允许最终用户自己浏览内容,可以使过滤或推荐过程更加公平。大多数参与者倾向于支持和信任人类决策而不是算法决策。
此外,在大多数情况下,参与者将算法决策的小比例偏差解释为低影响,并指出自然缺陷而非细微偏差。虽然研究人员认为,微小的统计差异会对个人和/或群体产生显著的累积效应,从而使不平等现象持续存在或加剧[41],但参与者似乎将微小的统计差异解释为良性,很大程度上认为它们是自然的、不可避免、不能修复。
代表性后果突出
虽然参与者可能并不总是对底层算法系统的广泛影响有一个以前的概念,但他们确实非常关心这些系统的可见结果以及边缘化群体是如何在网上被描绘出来的。参加者还认为流行算法并不是世界的良性镜像,指出社交媒体可以放大社会偏见,增加成见信息的传播范围。
问责制
与会者提出,许多不同的当事方可能对算法不公平负责,有时对可能的不公平原因有不同意见。最常提出的三个原因是:(1)一个非多样化的程序员群体; (2)社会成员偏见的在线行为; (3)新闻媒体。虽然其中一些想法表明了对超出技术范围的算法公平性的理解,但值得注意的是,技术界常常提出许多潜在原因,例如缺乏不同的培训数据或对不同类别的成员进行分类时的不公平准确性。
许多参与者认为程序员对算法的歧视负责,不一定是因为他们认为程序员是恶意的,而是因为他们认为程序员主要是特权白人男性,他们不了解更多不同用户的观点。他们认为更多样化的招聘实践会有所帮助。
与会者还经常认为,大多数陈规定型观念或种族主义都来自科技公司之外,经常呼吁社会在创造问题方面发挥作用。一些与会者还强调新闻媒体是偏见的来源。即使他们认为原因是外在的,大多数人仍然认为技术公司在解决这个问题上有一定的责任和作用。然而,这些立场不太常见,往往只在相当具体的情况下出现,并且公司往往可以而且应该采取行动以减少不公平的更常见的立场相对立。
监管
新闻标准
参与者倾向于将搜索引擎等技术公司纳入新闻标准。例如,他们希望他们进行仔细的,手动的事实检查(虽然与上述关于低估规模的发现产生共鸣,参与者倾向于提出手动的、人性化的方法),并且展示经证实的事实而不是观点或有偏见的内容。一些与会者表示,新闻媒体并不总是符合这一标准,有时会表现出对边缘化人群的有害偏见,有些人认为科技公司可以弥补这一点。
对用户信任的影响
如前面部分所示,算法公平性与强烈情绪相关联,并且在许多情况下,参与者对公司如何确保其产品的公平性抱有很高的期望。与关系营销的理念一致,参与者将算法公平与他们与公司的关系联系起来,表达他们信任的公司表现出社会偏见或偏见的背叛,失望或愤怒的感受。
讨论
作为人机交互研究人员,我们经常向利益相关者争论他们如何以及为何能够改变技术以更好地服务用户和/或改善社会。在算法公平的情况下,监管机构、立法者、新闻界、行业从业者等许多利益相关者都有机会采取积极行动。特别是技术公司具有极大的优势,可以提高算法的公平性,因为它们可以立即接近出现的许多技术问题,并且它们具有独特的优势,能够诊断和开发有效的解决方案来解决外部人员难以解决的复杂问题。因此,虽然我们希望很明显我们的研究结果可以被各种各样的利益相关者直接利用,特别是与社交媒体和搜索引擎等产品类别相关的决策,但我们将重点放在我们的研究结果所适用的三个跨越科技行业的公司最佳实践上。
#1:将公平作为产品设计和开发的价值。与隐私等考虑因素类似,在整个产品生命周期中可以考虑公平性。可以采取许多积极步骤,例如确保机器学习模型的各种培训数据,确保设计人员了解系统中的不平等,以便他们可以考虑采取适当的行动[,并让不同的人群参与用户测试。
我们的参与者关心公平性,对公司有强烈的道德期望,在公司不采取行动时感到失望(不论不公平的根源),并且公司非常重视改善社会偏见和使他们的产品尽可能包容。因此,在产品设计中纳入算法公平性可能会导致用户信任和参与度的可测量增益。我们的研究结果表明,这是公司积极行动的适当时机,而公众对这一复杂话题的看法仍在不断发展。算法公平性问题在技术上和组织上都具有挑战性,并且可能需要很长时间才能解决,特别是在机制尚未到位的情况下,因此在应用额外压力之前采取积极措施具有战略意义。由于这些问题的复杂性,通过用户研究进行深思熟虑并让利益相关者参与表达不同观点也是明智之举。
#2:设计用户研究以适应不同的观点,用户测试要包括传统边缘化人群的成员。研讨会形式支持并鼓励参与者探索和发展多样化,有相互冲突的立场可以从科技公司的决策者角度出发。同时,我们的经验反映了用户研究复杂计算主题的价值和挑战。作为对其他工作的补充,我们的研究结果表明参与者对这一主题的看法具有高度的了解,通常有情境因素(例如给定情景的具体细节)、个体因素、不同的利益相关者观点和不同的公平格式。相关地,关于该主题的去语境化用户研究也可能会产生误导性结果。我们建议研究人员准备并说明参与者可能为研究环境带来的信念和知识,以便为所有参与者提供包容性的研究环境。在某些情况下,使用人种学方法探索参与者的潜在价值并从这些价值观推断到技术含义也是有价值的。
#3:与社区团体和倡导者合作,共同开发解决方案。利益相关者不应孤立地工作以解决算法公平性带来的复杂问题。对多个参与者的强烈参与将对目标和最佳前进道路有深刻作用,Lee等人提出算法服务设计支持多个利益相关者的观点。例如,公司可以与社区团体和社区领导者合作以应对特定的挑战,如Airbnb在其平台上解决种族主义时、Facebook在处理对种族亲和力营销的担忧时,以及Google在制定关于发薪日贷款广告的政策时所做的那样。我们的研究强调了这些努力的重要性,它表明传统的用户测试方法可能无法完整地描述不同群体对这个计算和社会复杂问题的看法。社区团体和领导者在考虑社会规模后果和在一系列问题上代表他们的支持者方面经验丰富,并且有能力为这种讨论做出贡献。
算法越来越能在社会中产生作用和影响,学者和思想领袖们观察到算法可以调解我们对世界的看法和知识,并影响我们生活中的机会。此外,学术界和监管机构长期以来一直驳斥算法完全客观的假设,算法可以反映或放大人类的结构偏差,或引入自己的复杂偏见。
我们提供了对算法(不)公平性的补充和新颖的探索,其中:(1)我们探索了更广泛的潜在类型的算法不公平性; (2)我们采用定性方法,使我们能够深入探索人口较少的问题,这与Plane等人用更大,更具代表性的样本进行更狭隘的定量探索相辅相成;(3)我们关注的是更容易受到算法不公平影响的人群,而不是普通大众。
我们的研究结果表明,尽管算法(不)公平的概念最初大多是不熟悉的,并且参与者经常认为算法系统影响有限,但他们仍然非常关注算法的不公平性,期望公司无论其来源如何都要解决它,公司对算法不公平的反应也可能会严重影响用户的信任。这些研究结果可以为决策者和企业等各种利益相关者提供信息和广泛支持的观点。在充分认识到道德动机的重要性的同时,这些发现也表明算法公平可以成为良好的商业实践。在本文中,我们通过说明用户信任是整个技术部门的公司追求算法公平性的重要但未充分考虑的实用激励来提供额外的动力。
实现社会变革的一种方法是通过证明社会积极行动也是良好的商业实践来加强企业做好事的务实论据。例如,考虑Green to Gold如何有效地认为可持续商业实践不仅有利于环境,而且可以产生显着的财务利润。我们在本文中提出了一个关于传统边缘化人群如何看待算法公平性的新探索。研究结果可以为一系列利益相关者提供信息,但我们强调了公司处理算法公平性与用户信任相互作用的深刻见解。我们希望这种洞察力可以为整个技术领域的公司提供额外的动力,来积极追求算法的公平性。
Woodruff A, Fox S E, Rousso-Schindler S, et al. A qualitative exploration of perceptions of algorithmic fairness[C]//Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. ACM, 2018: 656.
curton 2019-11-29 21:25