海量数据的收集使得新旧企业能够利用机器学习技术开发新产品并革新旧产品。近年来,数据质量因直接影响了人工智能系统的性能和鲁棒性而备受关注。然而,这对通常通过破坏像素信息(如模糊化、马赛克等)来实现匿名化的方法提出了挑战,这些方法导致合规性与数据质量之间难以兼得。
我们探索了一种不是简单移除像素信息,而是对其进行自然替换的深度自然匿名化(Deep Natural Anonymization,DNAT)方法,致力于提高匿名化数据价值,助力企业开发创新。
DNAT能够检测人脸、车牌等可识别信息,并为每个对象生成人工替换。每个替换都尽可能匹配源对象的属性,但这种匹配是有选择性的,我们可以灵活控制保留哪些属性。
例如,对于人脸,保留性别和年龄等属性可能对后续分析至关重要。对于可识别信息以外的内容,不包含敏感个人数据的信息则保留不做修改。通过这种方式,DNAT成功打破了数据消除与匿名化之间的传统矛盾。
图1: 匿名化工具的比较,从左至右依次为:Facepixelizer,YouTube,Fast Redaction,DNAT,原图
为了衡量匿名化方法对数据质量的影响,我们从Labeled Face in the Wild(LFW)数据集中采样了图像。所有图像均取自测试集。我们比较了代表匿名化技术的四种不同的匿名化工具,图1显示了这些示例的一部分。
首先,我们分析了图像在匿名化处理后的整体结构变化。为此,我们仔细研究了图像分割结果。图像分割是将图像的像素划分为多个片段的过程,每个片段代表一个对象类别。在我们的示例中,最重要的对象是个人资料图片中的人物和背景。
图2和图3展示了LFW数据集中两位名人的分割图。这些分割图是由语义分割模型DeepLabv3+生成的,采用了官方TensorFlow存储库中的实现和模型权重。
图2: AI Pacino DeepLabv3+ 分割结果对比
图3: Reese witherspoon DeepLabv3+ 分割结果对比
从图2和图3中可以看出,传统匿名化方法的分割图明显退化,其中一些甚至完全错误。然而,深度自然匿名化(DNAT)保留了语义分割。分割图与原始图像几乎完全相同。从图3中可以看出,经过传统匿名化方法处理的人脸图像不仅产生了较差的分割边界,还使分割模型推断出原始图像中从未出现的新对象类别,如猫、狗或瓶子。
为了量化每种匿名化技术的影响,我们计算了整个测试集的平均交并比(mIOU)。计算是在不同方法生成的图像分割图与原始图像分割图之间进行的。结果如表1所示。
表1:用mIOU测量的语义分割一致性(越高越好)
为了评估匿名化图像与原始图像之间的整体内容一致性,我们使用了Clarifai的独立图像标注模型。“通用图像标注模型能够识别超过11,000种不同的概念,包括对象、主题、情绪等。”这些标签描述了模型从输入图像中推断出的内容。
此外,模型还为每个标签提供了置信度。图4展示了Clarifai公共图像标注模型对原始图像及其DNAT版本预测的前5个概念。
图4:来自clarifai的Reese Witherspoon前5个概念。(左原始图像,右DNAT)
理想情况下,通用图像标注模型应该为原始图像和匿名化图像预测完全相同的概念。为了衡量一致性,我们使用Clarifai为每种匿名化技术的所有测试样本预测概念。然后,我们计算了匿名化图像与原始图像之间前N个预测概念的平均精度(mAP)(其中N代表不同概念的数量)。
通过mAP,我们评估了两点:预测概念的一致性及其相关分数。例如,考虑一个匿名化图像及其原始图像对,经过图像标注模型处理后,如果某个概念在匿名化图像中的置信度值低于其在原始图像中的置信度值,则对最终mAP分数的影响较小;而如果某个概念仅出现在匿名化图像中,而未出现在其原始图像中,则影响较大。
前5和前50个概念的结果如表2所示。
表2:用mAP测量图像概念一致性(越高越好)
本文探讨了如何通过深度自然匿名化(DNAT)技术提升匿名化数据的价值,打破了传统匿名化方法在合规性与数据质量之间的固有权衡。DNAT通过生成自然替换而非破坏像素信息,不仅有效保护了个人隐私,还最大限度地保留了数据的分析价值。
实验表明,DNAT在图像分割和内容一致性方面显著优于传统匿名化方法,能够更好地支持后续的AI分析和应用。
文章评论(0条评论)
登录后参与讨论