 

红旗不倒

文章：162 阅读：745631 评论：109 赞：6664

扛起电子圈大旗

 好友  私信个人主页

扛起电子圈大旗

文章 162
原创 0
阅读 745631
评论 109
赞 6664

原创鲁棒性的文本分类中的反事实公平方法

 2019-11-13 15:22  3976 22 2 分类: 机器人/ AI 文集: 人工智能

本文研究了文本分类中的反事实公平性，提出了这样一个问题：如果实例中引用的敏感属性不同，预测结果会发生什么变化？毒性分类器通过预测“有些人是同性恋”是有毒的，而“有些人是异性恋”是无毒的来证明一个反事实的公平性问题。我们提供了一种叫做，反事实令牌公平（CTF）的度量方法，用于度量文本分类器中这种特殊的公平形式，并描述了它与组内公平的关系。此外，我们还提供了三种方法，即盲法、反事实增强法和反事实逻辑配对法（CLP），用于优化训练过程中的反事实符号公平性，连接健壮性和公平性。根据经验，我们发现盲法和CLP可以处理反事实的象征公平。该方法不影响分类器的性能，并且与组内公平性的权衡方式不同。这些度量和优化方法为解决文本分类中的公平性问题提供了一条新的途径。

简介

考虑一个确定互联网论坛评论是否有毒的模型。我们希望提高模型对输入文本内容的公平性，这些内容可能引用敏感的身份属性，如性取向、种族或宗教。Dixon等人表明毒性模型在包含“gay”等身份标记的示例中具有较高的假阳性率，因为此类标记在训练集中标记为“toxic”的示例中相对频繁出现。

当引用不同身份组的几乎相同的句子收到不同的预测时，就会出现一个与用户相关的问题。例如，一个基线毒性模型预测，“有些人是同性恋”有98%可能有毒，“有些人是异性恋”只有2%可能有毒。在这项工作中，我们寻求专门解决文本分类的公平性问题的方法。

举个例子，我们问一个反事实的问题：如果示例中引用的敏感属性不同，预测会发生什么变化？如果预测分数相对于敏感属性发生变化，我们将其视为潜在问题的指标。与基于群体的公平概念（如人口均等、赔率均等）不同，这些概念寻求在统计上使整个敏感群体的模型行为均等，反事实公平要求对单个反事实对的模型行为均等；见（Kusner， 2017）；Wachter、Mittelstadt&Russell 2017）。

为了评估反事实的公平性，我们考虑通过替换与身份组相关联的标记获得扰动。例如，将“同性恋”替换为“异性恋”，或将“亚洲人”替换为“美国人”。基于这些生成的反事实，我们可以定义一个公平度量，我们称之为反事实象征公平（ctf）。虽然这比一般的反事实公平更为有限，但我们相信它捕获了文本分类中最突出的问题之一，并且是更一般的文本反事实公平度量的起点。

决定反事实何时应该有相同的预测对伦理和哲学提出了难以回答的问题。由令牌替换生成的许多逻辑反事实可能不需要相同的输出。我们称这些为不对称的反事实。在毒性分类中，当评论提到与一组而不是另一组相关时，或者当评论攻击一个特别脆弱的组时，可能会出现这种情况。非对称反事实表明，从业人员在反事实公平的培训和评估中都应谨慎。我们在实验部分讨论了在毒性分类情况下解决这一问题的建议。

为了满足反事实的象征公平，我们借鉴了健壮性相关文献中的技术。我们提出了一个通过扩展逻辑配对（kannan、kurakin&goodfellow 2018）来实现任意反事实公平的通用培训方案，以惩罚模型输出中反事实对的差异。我们将此方法与简单地用反事实示例扩充训练集和盲目性进行比较，后者用一个特殊的标记替换所有敏感的标记。

存在一个问题是，上述方法只能在培训过程中对反事实所考虑的身份标记实现公平性。为了解决这个问题，我们评估了一组保留的标识令牌上泛化方法。优化反事实公平时的另一个关注点是与分类器的其他理想属性（包括总体准确性和组公平性）的潜在权衡。在实践中，我们没有发现在准确性方面的重大损害，也没有发现在真实否定和真实积极之间的权衡对群体公平的不同影响。

在这篇论文中我们做出了如下贡献：

（1）度量：我们提供了一个可跟踪的度量，即反事实的符号公平，用于在文本分类中度量反事实的公平性。

（2）方法：我们研究了三种处理反事实符号公平的方法：（a）盲法，（b）反事实增强法，（b）反事实逻辑配对法，从稳健性和公平性领域进行桥接研究。

（3）实证评估：我们评估了反事实象征公平、群体公平和这些方法的准确性的实证表现和权衡。

问题定义

给定文本输入x属于X，其中x是标记的序列[x1；：：；xn]，我们的任务是预测结果y。我们考虑一个由其参数化的分类器f，它产生一个预测^ y=f（x），在这里我们寻求最小化y和^ y之间的错误概念。为了简化符号，我们限制以下定义为一个二进制类，但它们可以很容易地推广到多类分类问题。分类器F可以是任意的神经网络。我们希望在保持对敏感属性（如身份组）的反事实公平性的同时，最大限度地提高模型的性能。反事实的公平性是通过使用干扰手边例子中引用的敏感属性的反事实例子来衡量的。设（x）表示与实例x相关的一组反事实实例。反事实公平要求对所有反事实模型的预测都在指定的误差内。

定义1：反事实公平

如果

那么对于反事实生成函数f和错误率，分类器f是反事实公平的

Ø 反事实令牌公平性（CTF）

我们考虑一类狭隘的反事实，涉及在输入中替换身份令牌，例如，在输入“有些人是同性恋”中用“异性恋”代替“同性恋”。

定义2.分类器满足反事实令牌公平性，如果它满足关于反事实生成函数A和错误率的反事实公平性，则为一组身份令牌A.

虽然有关敏感群体的内容可能会被复杂的语义所捕获，但此度量标准将显示与更一般的反事实公平性相关问题的子集。这是第一步，除了群体公平之外，还表现出对公平性的额外关注。

Ø 非对称反事实

到目前为止，我们假设所有关于身份标记的反事实都应该有相同的预测。在敏感属性确实影响预测的情况下，此假设无效。例如，考虑一个预测文本毒性的模型，反事实的一对“太同性恋了”和“太直了”。第一个例子可以说比第二个例子更有可能被认为是有害的，因为“同性恋”经常被用作互联网论坛的侮辱，而“直”不是。其他例子包括定型，其中一组比另一组更容易受到攻击。在这种情况下要求平等的预测可能会无意中伤害到更脆弱的群体。只有在规定对称预测的反事实中，才需要公平。这种限制可以通过限制反事实生成函数f（x）来在我们的框架中进行调整，以排除任何反事实，例如x可能具有不对称标签。一般来说，反事实之间的不对称程度和方向因任务的不同而不同，也因任务消费者的文化敏感性而不同。这使得很难定义一个完美的反事实生成函数。在实验中，我们提出了一种避免非对称反事实的启发式模型来预测文本的毒性。

Ø 与组公平的关系

反事实公平是对集团公平的优势均等概念的补充（Hardt、Price和Srebro 2016），这要求敏感属性的不同值的真实正利率和真实负利率均等。文本分类器可以满足其中一个，而完全不满足另一个。考虑到当两个敏感属性a和a0分别出现在不相交的上下文xa和xa0集合中时的情况。模型可以通过始终正确预测数据中出现a；a0的上下文来满足概率均等性，但决不能在数据中不存在的反事实上下文中进行预测。相反，该模型可以预测所有反事实对的相同输出，而只在xa而不是x0a上正确预测。

方法

提出了三种提高反事实公平性的方法：盲法、反事实增广法和反事实逻辑配对法。这两种方法都假定可以访问一个身份令牌列表，并希望对其进行公平处理。

Ø 盲法

盲人用一个特殊的身份标记来代替所有的身份标记，这允许预测者知道一个身份项存在，但不知道哪个身份。这类似于标准的NLP方法，例如用通用数字替换大数字。虽然这种方法保证了反事实的令牌公平性，但它有许多缺点。首先，它没有区分身份项的能力，因此必然等同于非对称反事实。第二，它不能处理复杂的反事实，这些反事实涉及到不止一个象征性的替代，例如“基督徒去教堂”和“犹太人去寺庙”。最后，模型仍然可以使用与身份术语相关的其他信号来区分（德沃克等人2011）。

Ø 反事实增强

反事实增强并不是让模型对身份项视而不见，而是用生成的反事实示例来增强模型的训练集。附加的例子旨在指导模型对扰动的恒等项保持不变。这是计算机视觉中的一种标准技术，用于使模型对目标位置、图像方向等保持不变。反事实的例子被赋予与原始示例相同的标签。

Ø 反事实逻辑对

反事实逻辑对（CLP）通过在训练损失中添加一个鲁棒性术语，鼓励模型对身份具有鲁棒性。稳健性术语由逻辑对（kannan、kurakin和goodfellow 2018）给出，该术语惩罚了成对训练示例及其反事实的逻辑差异规范。相似于反事实增加，CLP可以使用任何反事实一代功能。例如，一个限制性的反事实一代函数可以用来避免不对称反事实上的平等。此外，该方法还应用于更复杂的反事实。

实验

Ø 处理不对称反事实

我们假设，非对称反事实不太可能出现为基础真相无毒评论比有毒评论。这有两个原因。当对易受攻击群体进行定型/攻击以进行某些身份替换时，会出现不对称反事实，并且不存在其他毒性信号。在这种情况下，大多数身份替换都是无毒的，只有攻击弱势群体的才是有毒的。因此，如果基本事实示例是无毒的，那么在大多数身份替换中仍然需要反事实公平，而如果基本事实示例是有毒的，那么在大多数反事实中不需要等量预测。第二，刻板评论更可能发生在攻击刻板群体的有毒评论中，而不是引用其他身份群体的无毒评论中。基于这些原因，我们分别从事实-象征-公平性的角度对事实-无毒评论和事实-有毒评论进行了评价，并将我们的分析重点放在无毒评论上。我们还考虑将CLP损失仅应用于培训期间的无毒评论，以避免对潜在的不对称反事实强制逻辑的平等性。我们将这种变异称为CLP无毒。另外，我们还评估了简单合成输入的CTF，其中所有关于毒性的信息都在上下文中编码，所有反事实都是通过设计对称的。具体来说，我们使用一组基于模板的综合生成的句子，例如“名称是形容词”。

结果

Ø 反事实令牌公平

表1展示了评估数据集中无毒示例的CTF差距，以及合成数据集中的所有示例。

表2展示了CTF在评估数据集中无毒示例保留条款方面的差距。

Ø 总体性能

我们使用ROC曲线的AUC评估分类器的整体性能。值得注意的是，所有方法在测试集上显示出一致的AUC，范围在0.962-0.964之间。

图1比较了各种模型的真阳性率（TPR）和真阴性率（TNR），其中毒性分类的阈值设置为0.5。TPR和TNR仅在包含训练术语集的标识术语的示例上进行测量。我们发现，减少CTF差距的方法在识别无毒评论（真阴性）方面表现更好，而在识别有毒评论（真阳性）方面表现更差。在误差分析中讨论了改善CTF间隙与TPR之间的张力。

Ø 误差分析

我们研究了CTF缺口和TPR之间的权衡。我们考虑CLP=5模型，该模型获得接近零的CTF间隙，并将其毒性评论预测与基线预测进行比较。在测试集中具有标识项的示例中，有83个示例是根据基线正确分类的，而由CLP模型错误分类的。其中27位作者被贴上了不对称反事实的标签。有20例CLP模型与基线相比预测正确，没有一例具有不对称的反事实。这告诉我们，TPR损失中有很大一部分（相对于基线）是不对称反事实的毒性例子。这是因为具有不对称反事实的例子由于存在一个特定的同一项而具有毒性，而一个经过训练以忽略同一项的模型将不太可能在这些例子上正确预测。

结论与未来工作

在文本分类中，我们朝着反事实公平的方向努力，提出了一种反事实公平的具体形式，称为反事实令牌公平（CTF），它要求模型对输入中存在的不同身份令牌具有鲁棒性。我们表明，在这个指标上，具有良好总体性能的文本分类模型表现不佳。本文从鲁棒性的角度对反事实令牌公平性进行了研究，提出了模型训练过程中反事实令牌公平性度量的优化过程——反事实逻辑对。我们发现，这种方法在执行身份标记的同时也是盲目的，但也可以更好地进行归纳以保留标记。这些结果并不以牺牲整个分类器的准确性为代价，并且在假阳性和假阴性之间存在不同的权衡。

今后，我们要设计更好的启发式方法来识别具有非对称反事实的案例。排除有毒评论涵盖了许多但并非所有不对称的例子。例如，引用“黑色力量”的基本事实无毒的例子，在引用“白色力量”时，更有可能变成有毒的。在其他文本分类任务中，如情绪分类，将出现不对称的反事实，但不一定具有相同的清晰划分标签。

下一步将是通过解决身份项的多义性（可能导致不合逻辑的替换）、不对称的反事实和对身份组的多重引用等问题来改进反事实的产生。一种可能的方法是在字向量中使用类比来更改用于同一标识组的多个标记（Madan等人2018年）。另一种方法是在文本上定义生成模型，如（Hu等人2017年），它可以修改文本的某些属性，同时保持其他属性不变并保留语义。我们还可以使用标准来选择语义等效的对抗性示例，如（Ribeiro、Singh和Guestrin 2018），以评估反事实示例是否合乎逻辑。对一般反事实公平性的优化将检验反事实逻辑配对的许多独特优势。