原创 通过联合机器学习保护隐私数据

2020-3-3 12:49 3336 18 18 分类: 机器人/ AI 文集: 人工智能

这些步骤可确保考虑每个数据源的偏差,并准确地说明问题所在。例如,对来自世界各地卫生机构的心脏病数据进行联合模型的训练可以消除在对一个国家的国内数据进行训练的模型中发现的种族和性别偏见。

通过联合机器学习保护隐私数据

保护隐私的需要

如今,对隐私的需求从未像现在这样迫切,数据的价值可比作石油,被认为是个人最重要的资产。个人生成的数据类型从看似无害的细节(如零售偏好)到高度敏感的信息(如病历),甚至是可能会影响的政治观点。

呼吁提高数据安全性的一种可能的答案(越来越受到关注)是隐私保护机器学习(也称为联合学习,或联盟学习)的发展。在较高的层次上,联合学习是一种机器学习方法,可以协同训练模型,并旨在通过使用差异隐私和分散数据来防止数据泄漏。因此,联合学习允许个人数据保持匿名,同时帮助建立强大的模型。

用最简单的术语来说,联合学习不会将您的数据发送给第三方,而是在加密每个步骤的同时将模型引入了数据中。



机器学习的未来是协作

隐私并不是使用联合学习来解决的唯一问题。它也消除了目前阻碍我们构建更高精度模型的障碍。这样的问题之一是,没有中央资源可以提取训练这些模型所需的所有数据。训练覆盖整个情况的模型将需要一系列数据类型,通常分布在各个机构中。

例如,为了捕获个人的财务状况并提供洞察力,必须对在多个银行和信贷服务,在线零售行为和付款习惯中发现的数据进行训练。为了增加复杂性,同一公司各部门之间的数据传输可能会面临与管理或隐私相关的问题。

通过联合机器学习保护隐私数据

联合学习为各方面各不相同的各方提供了机会,以协作方式训练比在单一数据源上训练的模型更准确的模型。

联合学习

高层次的联合学习可以分为三个步骤:

1. 共享的全局机器学习模型在可用数据上进行训练,并部署在分散的平台上。

2. 将模型下载到边缘设备,可以是智能手机,笔记本电脑或其他智能设备,然后使用其包含的数据更新模型。

3. 更新(例如,计算出的梯度)将被加密并发送回服务器,在该服务器上,来自多个设备的更新将被平均并用于改善主要共享模型。

4. 然后,共享模型由边缘设备下载,从而使模型的数据贡献者和策展人受益。

通过联合机器学习保护隐私数据

这些步骤可确保考虑每个数据源的偏差,并准确地说明问题所在。例如,对来自世界各地卫生机构的心脏病数据进行联合模型的训练可以消除在对一个国家的国内数据进行训练的模型中发现的种族和性别偏见。



联合学习的组成部分

创建一个图表,以非常高的层次说明组成联合学习的各种元素:

通过联合机器学习保护隐私数据

构成联合学习基础的三点是:隐私,数据结构和模型类型。随着不断变化的景观,增加复杂性和增加深度的新研究进一步扩展了这些观点。

1. 隐私 -隐私是联合学习的最重要方面。无论数据的提供者是公司还是个人,隐私保护都可以增进协作的信任度,保护敏感数据,并确保个人的合法权利。

2. 数据结构 -联合学习根据模型在其上训练的数据结构进行分类。数据结构类别有以下三种类型:水平联合学习、垂直联合学习和迁移学习。这些结构描述了数据的组织方式,特别是数据集是否共享相同的特征空间,或者它们是否共享相同的样本。这两个描述分别涉及水平学习和垂直学习。

3. 模型类型 -简单来说,要训练的模型是神经网络还是统计学习模型。这将取决于数据类型,数据量和所需的预测结果。

通过联合机器学习保护隐私数据

联合学习数据结构图

未来发展方向

尽管联合学习可能成为解决跨多个设备的大量数据的问题的解决方案,但仍然存在一些障碍。

1. 资源瓶颈-这些问题包括在训练期间连接的IoT设备的电池寿命不同的情况,这可能导致某些设备掉线。设备无法连接wifi,3G或4G网络等通信差异将影响网络。最后,网络上的设备之间的硬件规格(例如内存和CPU)可能会有所不同。

2. 数据差异—每个设备上的数据在质量,数量和一致性上都会有所不同。例如,如果收集用于人脸识别的图像数据,则图片中的照明,面部的多样性以及所贡献的数据量将影响本地训练的模型。这些局部模型的质量差异很大,最终会影响全局模型的整体质量和准确性。

PARTNER CONTENT

文章评论0条评论)

登录后参与讨论
EE直播间
更多
我要评论
0
18
关闭 站长推荐上一条 /3 下一条