tag 标签: 图像分割

相关博文
  • 2025-2-20 09:43
    82 次阅读|
    0 个评论
    突破传统匿名化:先进技术解锁数据价值新维度
    海量数据 的收集使得新旧企业能够利用 机器学习 技术开发新产品并革新旧产品。近年来, 数据质量 因直接影响了人工智能系统的性能和鲁棒性而备受关注。然而,这对通常通过 破坏像素信息 (如模糊化、马赛克等)来实现匿名化的方法提出了挑战,这些方法导致合规性与数据质量之间难以兼得。 我们探索了一种不是简单移除像素信息,而是对其进行自然替换的 深度自然匿名化 (Deep Natural Anonymization,DNAT)方法,致力于提高匿名化数据价值,助力企业开发创新。 一、匿名化数据的传统矛盾 DNAT 能够检测人脸、车牌等可识别信息,并为每个对象生成 人工替换 。每个替换都尽可能匹配源对象的属性,但这种匹配是有选择性的,我们可以灵活控制保留哪些属性。 例如,对于人脸,保留性别和年龄等属性可能对后续分析至关重要。对于可识别信息以外的内容,不包含敏感个人数据的信息则保留不做修改。通过这种方式,DNAT成功打破了 数据消除与匿名化 之间的传统矛盾。 图1: 匿名化工具的比较,从左至右依次为:Facepixelizer,YouTube,Fast Redaction,DNAT,原图 为了衡量匿名化方法对数据质量的影响,我们从Labeled Face in the Wild(LFW)数据集中采样了图像。所有图像均取自测试集。我们 比较了 代表匿名化技术的 四种不同的匿名化工具 ,图1显示了这些示例的一部分。 二、匿名化的结构一致性 首先,我们分析了图像在匿名化处理后的 整体结构变化 。为此,我们仔细研究了图像分割结果。图像分割是将图像的像素划分为多个片段的过程,每个片段代表一个对象类别。在我们的示例中,最重要的对象是个人资料图片中的 人物和背景 。 图2和图3展示了LFW数据集中两位名人的分割图。这些分割图是由 语义分割模型DeepLabv3+ 生成的,采用了官方TensorFlow存储库中的实现和模型权重。 图2: AI Pacino DeepLabv3+ 分割结果对比 图3: Reese witherspoon DeepLabv3+ 分割结果对比 从图2和图3中可以看出,传统匿名化方法的分割图明显退化,其中一些甚至完全错误。然而, 深度自然匿名化(DNAT)保留了语义分割 。分割图与原始图像几乎完全相同。从图3中可以看出,经过传统匿名化方法处理的人脸图像不仅产生了较差的分割边界,还使分割模型推断出原始图像中 从未出现的新对象类别 ,如猫、狗或瓶子。 为了 量化每种匿名化技术的影响 ,我们计算了整个测试集的 平均交并比 (mIOU)。计算是在不同方法生成的图像分割图与原始图像分割图之间进行的。结果如表1所示。 表1:用mIOU测量的语义分割一致性(越高越好) 三、匿名化的内容一致性 为了评估匿名化图像与原始图像之间的 整体内容一致性 ,我们使用了 Clarifai的独立图像标注模型 。“通用图像标注模型能够识别超过11,000种不同的概念,包括对象、主题、情绪等。”这些标签描述了模型从输入图像中推断出的内容。 此外,模型还为每个标签提供了 置信度 。图4展示了Clarifai公共图像标注模型对原始图像及其DNAT版本预测的前5个概念。 图4:来自clarifai的Reese Witherspoon前5个概念。(左原始图像,右DNAT) 理想情况下,通用图像标注模型应该为原始图像和匿名化图像预测完全相同的概念。为了衡量一致性,我们使用Clarifai为每种匿名化技术的所有测试样本 预测概念 。然后,我们计算了匿名化图像与原始图像之间 前N个预测概念的平均精度 (mAP)(其中N代表不同概念的数量)。 通过mAP,我们评估了两点: 预测概念的一致性 及其 相关分数 。例如,考虑一个匿名化图像及其原始图像对,经过图像标注模型处理后,如果某个概念在匿名化图像中的置信度值低于其在原始图像中的置信度值,则对最终mAP分数的影响较小;而如果某个概念仅出现在匿名化图像中,而未出现在其原始图像中,则影响较大。 前5和前50个 概念的结果如表2所示。 表2:用mAP测量图像概念一致性(越高越好) 四、总结 本文探讨了如何通过 深度自然匿名化(DNAT) 技术提升 匿名化数据的价值 ,打破了传统匿名化方法在合规性与数据质量之间的固有权衡。DNAT通过生成自然替换而非破坏像素信息,不仅有效保护了个人隐私,还最大限度地保留了数据的分析价值。 实验表明,DNAT在 图像分割 和 内容一致性 方面显著优于传统匿名化方法,能够更好地支持后续的AI分析和应用。
相关资源