tag 标签: 机器学习

相关帖子
相关博文
  • 热度 6
    2021-2-3 16:46
    369 次阅读|
    0 个评论
    致力于建立更智能、更互联世界的领先芯片、软件和解决方案供应商 Silicon Labs (亦称“芯科科技”)近日宣布与领先的边缘设备机器学习(ML)开发平台Edge Impulse携手合作,实现在Silicon Labs EFR32无线片上系统(SoC)和EFM32微控制器(MCU)上快速开发和部署机器学习应用。Edge Impulse工具可在低功耗且内存受限的远程边缘设备上实现复杂的运动检测(motion detection)、声音识别和图像分类。 研究表明,往往由于人工智能(AI)/机器学习方面的挑战, 87%的数据科学项目从未实现量产 。通过Silicon Labs与Edge Impulse之间的这种新合作,设备开发人员只需轻点按钮,即可直接生成机器学习模型并将其导出至设备或Simplicity Studio(Silicon Labs的集成开发环境),在数分钟内便可实现机器学习功能。 Silicon Labs物联网副总裁Matt Saunders表示:“Silicon Labs相信,我们努力将机器学习融入到边缘设备中,将会使物联网更加智能。Edge Impulse提供安全、私密且容易使用的工具,在实现机器学习时为开发人员节省了时间和资金,并为从预测性维护、资产跟踪到监控和人员检测等实际商业应用带来了令人惊叹的新用户体验。” 通过在Simplicity Studio中集成部署,Edge Impulse可使开发人员免费在各种Silicon Labs产品上快速创建神经网络。通过在EFR32和EFM32器件(例如MG12、MG21和GG11)中嵌入最先进的TinyML模型,该解决方案能够实现以下功能: ● 真实的传感器数据收集和存储 ● 高级信号处理和数据特征提取 ● 机器学习 ● 深度神经网络(DNN)模型训练 ● 优化嵌入式代码部署 Edge Impulse工具还可以利用Edge Impulse的Edge Optimized Neural(EON™)技术来优化内存使用和推理时间。 Edge Impulse联合创始人兼首席执行官Zach Shelby表示:“嵌入式机器学习在工业、企业和消费领域的应用是无止境的。将机器学习与Silicon Labs的先进开发工具和多协议解决方案整合在一起,将为客户带来绝佳的无线开发机遇。” Edge Impulse的各项支持已就绪,可用于Silicon Labs的Thunderboard Sense 2及无线SoC和MCU。Edge Impulse将在 tinyML峰会 (2021年3月22-26日)上举办实操研讨会,欢迎参与以进一步了解Silicon Labs平台的人工智能/机器学习功能。前250名研讨会注册者将免费获得一个Silicon Labs开发套件在活动期间使用。
  • 热度 9
    2020-7-7 14:27
    622 次阅读|
    0 个评论
    1 摘要 数据来源跟踪确定与给定输出相关的一组输入。它使数据工程中的质量控制和问题诊断成为可能。大多数现有技术通过跟踪程序依赖性来工作。他们无法从数量上评估相关输入的重要性,这对于机器学习算法至关重要,在机器学习算法中,输出往往取决于大量输入,而其中只有一些输入很重要。在本文中,我们提出了 LAMP,一种用于机器学习算法的出处计算系统。受自动微分(AD)的启发,LAMP 通过计算偏导数来量化输入对于输出的重要性。LAMP 将原始数据处理和更昂贵的导数计算分离到不同的过程中,以实现成本效益。另外,它允许量化与离散行为(例如控制流选择)相关的输入的重要性。对一组现实世界的程序和数据集的评估表明,与基于程序依赖的技术相比,LAMP 产生了更精确,更简洁的出处,而开销却少得多。我们的案例研究证明了 LAMP 在数据工程问题诊断中的潜力。 2 研究简介 与传统软件工程相比,数据工程的复杂性主要在于数据和模型。例如,许多数据处理程序,例如众所周知的机器学习程序,具有较小的尺寸。但是这些程序处理的数据和生成的模型通常很大且很复杂。基于图的机器学习(GML)是一种越来越受欢迎的数据处理方法。提供输入图模型和初始权重值后,GML 算法将生成更新的模型。这些算法大多数都是迭代算法。在每次迭代中,一个顶点与其邻居进行通信并更新其值,直到所有值收敛为止。通过多次迭代,一个顶点会影响到许多边缘不远的其他顶点。这就是所谓的涟漪效应。由于这种计算的性质,要确定所生成模型的正确性极具挑战性,因为故障可能会通过许多步骤传播,而故障状态可能会在传播过程中累积/混淆。即使用户怀疑最终输出的不正确性,他也几乎无法诊断确定根本原因的过程,根本原因可能出现在输入图模型,初始权重值甚至 GML 算法本身中。 数据出处是一种重要的方法解决问题。它标识输入输出依存关系和/或记录操作历史,大多数专注于在运行时选择性地收集中间结果,以努力提供崩溃恢复机制,调试支持等。但是,这些技术几乎无法解释输入输出的依赖性,无法量化单个输入的重要性。由于 GML 算法的涟漪效应,即使大多数输入对输出的影响微不足道,输出也往往取决于大量输入。 在本文中,作者提出了 LAMP,一种量化输入重要性的技术。受到自动差分,LAMP 通过计算关于输入的输出导数来工作。该设计将原始数据处理与出处计算分开,因此在生产运行过程中引入的开销很少。它通过产生过程具体确定输出变化来量化那些可能引起控制流变化的输入重要性。作者团队的主要贡献在于: 正式定义了 GML 算法的出处计算问题,这是量化输入重要性的关键挑战。 提出了一种将原始数据处理与出处计算分离的新颖设计。 提出了一种基于执行的方法来量化与控制相关的输入重要性流程。 我们开发了原型 LAMP。我案例研究证明了 LAMP 在数据工程中的潜力,它可以帮助开发过程和发现输入数据,图形模型甚至 GML 算法实现中的错误。 概念定义 如果一个顶点很重要(即,通过具有高的初始权重或通过与许多其他顶点连接),则其初始值的较小扰动将更改所有连接的顶点的值,并最终导致实质性的输出变化。但是,尽管数学功能在很大程度上是连续的,但 GML 程序具有许多离散的行为。结果,Fn 函数通常是不连续的。请注意,在不连续函数中,任意小的输入变化不会导致任意小的输出变化。结果,导数是无限的。在这种情况下,导数不代表输入变化的影响。因此,作者改为报告输出变化,见图 1。 图 1 LAMP 原理本质示意图 3 LAMP 方法描述 基本思路 LAMP 动态计算每个变量的偏导数。给定一个语句 操作数,LAMP 利用导数链规则计算每个初始权重的偏导数。计算函数组成的导数是一条如下规则: 其中f(u)是最终输出,u是中间结果,x是输入变量。从直觉上讲,它可以根据函数对输入的导数和中间结果对输入的导数来计算函数对输入的导数。利用链规则,可以基于在定义操作数时计算出的操作数值及其偏导数,在本地对语句进行微分计算。在谓词上,LAMP 检查任何初始权重值的微小变化是否会导致谓词采取不同的分支结果。这可以通过使用谓词表达式的计算偏导数通过线性近似来完成。如果是这样,则 LAMP 产生一个新的进程来接管另一个分支。最后,通过比较所有过程的输出得出输出变化。根据§3 中的问题陈述,由不连续性引起的偏导数和输出变化是衡量输入对输出的影响的结果数据来源。 详细设计:运行时数据采集 在生产运行期间,LAMP 进行非常轻量级的跟踪,以收集分支结果和某些操作(例如乘法)的结果。跟踪语义在图 2 中说明。表达规则是标准的。根据评估上下文 E,在应用语句规则之前,首先将表达式评估为值。语句评估具有 σ,ω 和 C 的配置:σ 是存储;ω 是由跟踪项的顺序组成的跟踪日志,每个跟踪项包含一个语句标签,该语句的执行计数器值和一组值; C 记录当前计数器每个陈述的价值。大多数陈述的评估规则是标准的,因此这种模式是合理的。 图 2 语义规则说明 详细介绍了多种运行时数据语义规则构建形式 规则 和 指出 LAMP 可能会记录乘法的操作数值,因为在以后的源计算阶段的导数计算中需要使用这些值。如果编译器静态确定两个操作数变量都与带注释的输入变量相关,则通过将条目附加到 ω 来记录其值,同时计数器也增加了。同样,如果只有一个操作数与输入相关,则记录另一个操作数的值。当两个操作数都不与输入变量相关时,LAMP 无需计算导数,因此不记录操作数值(规则 )。根据条件语句,LAMP 确定谓词是否与输入变量相关。如果是这样,它将通过方法 unstable()进一步检测出分支结果是否可能不稳定。如果小的输入扰动 Δ 翻转分支结果,则分支结果不稳定。 图 3 代码转化规则 描述不同条件下各类代码的转化规则 详细设计:代码转换 LAMP 将原始程序转换为新程序,该程序将获取原始输入图和在跟踪阶段生成的日志,并执行出处计算。图 3 描述了一组转换规则。 1),这表明谓词潜在地不稳定,并且较小的输入变化量 Δ 会导致值变化较大。比(记录的)值大,并利用偏导数。如果是这样,则分支结果可以翻转。因此,LAMP 生成一个进程以继续沿原始程序中的另一个分支执行(第 3 行)。在执行分支之前,LAMP 将恢复临界状态。父进程继续在 true 分支(第 5 行)中进行导数计算。第 4 行用于记录带注释的输入变量,这些变量的变化可能会翻转分支结果和子进程 id。在计算结束时,对于每个导致谓词不稳定的输入,LAMP 会在所有关联过程中以 zmax 和 zmin,最大值和最小值 z 收集输出变量 za 的值,这表示输入对 z 的影响。图 1 显示了转换后的 PageRank。 详细设计:讨论 LAMP 使用导数作为来源,并输出加权偏倚图,其中偏导数作为权重。它可以检测影响此类依赖关系和相应权重的错误。它的能力也会影响具体的数值。对重量不可见或影响不大的 Bug,被 LAMP 检测的概率较小。此外,由于 LAMP 的目标是机器学习计算过程,因此如果工作流中发生错误(例如,选择错误的数据集,不合适的机器学习算法),它将无法提供帮助。 4 验证 作者从来源计算开销,内存开销,日志空间,稳定性等方面评估的 LAMP 的效率,并简单介绍了 LAMP 的实效性。结果表明,该工具具有极高的使用效率,在各项性能和功能的可用性上均有出色表现。相关验证结果图片如下(图 4,表 1): 图 4 内存计算开销 表 1 来源计算开销
  • 热度 7
    2020-6-19 11:19
    852 次阅读|
    0 个评论
    总结 本文实现了一个系统化的测试工具 DeepTest,可以自动检测出 DNN 自动驾驶系统可能导致事故发生的错误决策,主要是分析摄像头捕获到的图像致使自动驾驶汽车转向的行为。首先,DeepTest 系统化自动生成测试用例,能使模型的神经元覆盖率最大化,比如模拟下雨,起雾,光照条件等实际场景。其次,本文证明了神经元覆盖率的变化可以影响到自动驾驶汽车转向行为的变化,并且对于摄像机捕获到图像进行各种转换,可以激活 DNN 中不同组的神经元,从而最大化神经元覆盖率。最后,本文对于不同测试用例进行真实图像变换,利用蜕变关系自动检测错误行为,合成的图像还可以用于再训练,使 DNN 自动驾驶汽车系统具有更强的鲁棒性。 摘要 深度神经网络(DNN)的最新研究进展使得 DNN 驱动的自动驾驶汽车的迅猛发展,该自动驾驶汽车使用摄像头,LiDAR 等传感器,无需任何人工干预即可驾驶。包括 Tesla,GM,Ford,BMW 和 Waymo / Google 在内的大多数主要制造商都在致力于构建和测试不同类型的自动驾驶汽车。美国包括加利福尼亚州,德克萨斯州和纽约州在内的几个州的立法者已经通过了新的立法,以进行道路上自动驾驶汽车的测试和部署。但是,尽管 DNN 取得了令人瞩目的进步,但与传统软件一样,它们经常表现出不正确或意外的极端情况,可能导致致命的碰撞。已经发生了几起涉及自动驾驶汽车的实际事故,其中包括一些事故导致死亡。用于 DNN 驱动的车辆测试技术大部分都严重依赖于在不同驾驶条件下手动收集测试数据,随着测试场景需求的增加,这种测试数据获取的成本过高。在本文中,我们设计,实施和评估一种系统测试工具 DeepTest,用于自动检测 DNN 驱动的车辆的错误行为,这些行为可能导致致命的撞车事故。首先,我们的工具旨在根据驾驶条件(如雨,雾,光照条件等)的实际变化自动生成测试用例。DeepTest 通过最大化激活神经元数量来生成测试用例,系统地探索 DNN 的不同部分的逻辑。 DeepTest 在不同的现实驾驶条件下(例如,模糊,下雨,起雾等)发现了数千种错误行为,其中许多行为可能导致 Udacity 自动驾驶汽车挑战赛中三个性能最高的 DNN 产生致命事故。 本文主要贡献: 我们提供了一种自动合成测试用例的技术,可在安全攸关的 DNN 的系统(例如自动驾驶汽车)中最大化神经元覆盖范围。我们证明了神经元覆盖范围的变化与自动驾驶汽车行为的变化相关。 我们证明了不同的图像变换(如对比度变化,雾的存在等)可用于测试来增加神经元覆盖率。 我们利用特定于变换关系来自动检测错误行为。 我们的实验还表明,合成图像可用于重新训练,并使 DNN 对不同的极端情况更为稳健。 据我们所知,DeepTest 是首款针对 DNN 驱动的自动驾驶汽车的系统化和自动化测试工具。 我们使用 DeepTest 对来自 Udacity 驾驶挑战的三个性能最高的 DNN 模型进行系统测试。 DeepTest 在这些系统中发现了数千种错误行为,其中许多行为可能导致潜在的致命碰撞。 背景知识 自动驾驶汽车的关键组件是由底层的深度神经网络(DNN)控制的感知模块。 DNN 接收来自不同传感器的输入,例如摄像机,光检测和测距传感器(LiDAR)和 IR(红外)传感器,这些传感器可感知环境并输出转向角,制动力度等,使得在各种条件下安全操纵汽车。 自动驾驶汽车中使用的大多数 DNN 可以分为两种类型:(1)前馈卷积神经网络(CNN)和(2)循环神经网络(RNN)。 我们测试的 DNN 包括两个 CNN 和一个 RNN。 实验方法 1. 基于神经元覆盖的系统性测试。 在本文中,我们基于所有具有相似神经元覆盖率的输入均属于同一等价类的假设(即目标 DNN 对于这些输入的行为类似),利用神经元覆盖率作为划分输入空间的一种机制。 2. 利用图像合成的方法最大化神经元覆盖率 DeepTest 通过将图像变换应用于种子图像并模拟不同的现实世界情况(例如相机镜头变形,物体移动,不同的天气条件等)来生成逼真的合成图像。为此,我们研究了九种不同的逼真的图像变换(改变亮度,改变对比度,平移,缩放,水平剪切,旋转,模糊,添加雾效果和施加下雨效果)。 这些转换可以分为三类:线性,仿射和卷积。我们的实验结果表明,转换后所有测试的 DNN 都显著提高了神经元覆盖率。 3. 用变换组合提高神经元覆盖率 不同的图像变换可以激活不同的神经元,如果这些变换堆叠起来的话,可以激活更多的神经元。可是,所有变换组合的状态空间非常巨大,本文提供了一种神经元覆盖率引导的贪婪搜索技术,可以有效地找到导致更高覆盖率的图像变换组合。 4. 利用蜕变关系创造 Test Oracle 自动驾驶系统是一个基于 DNN 的复杂系统,手动创建系统规范是极其困难的,因为这涉及到重新创建人类驾驶员的逻辑。本文巧妙地避免了这个问题,转而考虑不同合成图像间对应汽车不同决策行为之间的蜕变关系。例如,在任何灯光/天气条件、模糊或任何具有小参数值的仿射变换下,对于同一图像,自动驾驶汽车的转向角不应发生显著变化。本文使用相对宽松的蜕变关系寻求一种权衡,于是借助均方差重新定义了一个蜕变关系,即认为模型对于输入的转换图像产生的误差应该在 λ 倍的均方差内。 实验结果 本文将 deeptest 工具用于对三款在 Udacity 自动驾驶挑战赛中获得优异名次的 DNN 车型上进行评估,分别为 Rambo(第二名), Chauffeur (第三名), 和 Epoch(第六名).得出以下四个结论: 神经元覆盖率与输入输出多样性相关,可用于系统化测试生成。 不同的图像变换倾向于激活不同的神经元。 通过系统地组合不同的图像变换,神经元覆盖率比原始种子图像可以提高约 100%。 借助神经元覆盖率引导生成的合成图像,DeepTest 成功地检测到三个模型所预测的 1,000 多种错误行为(图 1)。 通过使用 DeepTest 生成的合成数据对 DNN 进行重新训练,可以将 DNN 的准确性提高多达 46%。 图 1 DeepTest 所发现的错误行为示例 实验有效性讨论 DeepTest 通过对种子图像应用不同的图像变换来生成逼真的合成图像。 但是,这些转换可能无法涵盖所有现实情况。 虽然我们设计的转换(如雨雾效果)是逼近现实的,但由于大量不可预测的因素(例如太阳的位置,雨滴的角度和大小),所生成的图片在现实中可能无法完全重现。 但是,随着图像处理技术变得越来越复杂,生成的图片将越来越接近现实。除此之外,完整的用于驾驶自动驾驶汽车的 DNN 模型还必须处理转向角以外的制动和加速问题。我们限制自己只能测试转向角的准确性,因为我们测试的模型尚不支持制动和加速。 但是,假设模型支持它们,我们的技术也应该很容易应用于测试这些输出。
  • 热度 2
    2020-3-4 15:59
    1740 次阅读|
    0 个评论
    无监督机器学习的诱人前景之一是它可以从混乱中提取秩序。精心设计的聚类算法就像在干草堆中专门寻找针头一样。 问题背景:在美国,ARCOS 阿片类药物数据集中标记可能存在问题的买家。 ARCOS 缩写,是美国毒品执法机构在美国进行处方药交易的记录。其中包括处方阿片类药物交易-以及有关谁制造了这些阿片类药物,谁将它们出售以及将它们出售给美国患者的信息。 由DEA首次公开的ARCOS数据集跨越4亿行和40多个列。它几乎涵盖了2006年至2012年之间在制造商(如Purdue Pharma),分销商(如AmerisourceBergen,Cardinal Health和McKesson)以及全国数千家药房、医院、医生办公室和诊所之间进行的所有阿片类药物交易。 但是从阿片类药物诉讼和美国阿片类药物危机的角度来看,ARCOS数据集也因其遗漏而著称。即使DEA记录了阿片类药物"购买者"(药房,医生办公室,诊所或其他向患者出售药物的企业)的违规行为,ARCOS数据集也没有任何此类标记。 我们的工商管理硕士和数据科学家团队在想: 我们能不能找到一种方法,使用一个纯粹的数据驱动的方法标记可能存在问题的阿片类药物的买家?我们是否可以使用ARCOS交易数据集来实现该目标? 链中的一环 ARCOS数据集列出了涉及各种买家的交易,从大型医院到小型诊所。我们最初决定将搜索范围限制在 连锁药店 ,这有两个原因。 首先,阿片类药物诉讼主要针对大型上市公司。其次,我们认为连锁药房的离群值可能少于独立药房的离群值,后者适合采用聚类方法。 我们开始通过寻找符合以下两个条件的个体药店来搜索 "高收益连锁药店" (我们称之为目标): 他们卖高容量阿片类药物 他们在ARCOS数据集的7年中迅速提高了阿片类药物的销量(以百分比计)。 K-Means聚类 与机器学习项目一样,我们的第一轮集群实际上始于精确的数据清理和组织。经过数周的整理和标准化了约4亿行数据,写一些Python函数,将交易汇总为简化的药房规模数字。通过县级美国人口普查局的人口数据对交易进行加权,以免因大宗交易量而惩罚大城市的药房。 在我们的第一次聚类迭代中,我们将20多种维度的交易数据全部加载到。当然,要可视化这么多个维度非常困难,因此我们利用PCA将这些维度压缩为两个更易于消化的维度。最初的结果是…… PC1反映与绝对销售额相关的维度,而PC2反映增长维度。每个点都是连锁药房。(来源:由Nephron Research提供的经修改的DEA ARCOS数据集) 这个结果不是很令人鼓舞。我们看到了许多快速成长但规模很小的药房( 第2簇,紫色 );许多大型药店的销售额几乎没有变化( 第3簇,黄色 );中间是一堆药房(绿松石色的 第1簇 )。 不过,没有高收益的连锁药房。 集群:版本2 然后,我们决定隔离药物的"强度",而不是平等地对待所有阿片类药物。我们特别关注有关的三种药物: 羟考酮 、 氢可酮 和 芬太尼 。(芬太尼在2012年还没有像最近那样在美国爆炸,但是由于其强大的化学能力,它仍然引起了人们的兴趣)。结果: 该图中通过算法生成的PC1与高销量成反比。0表示高销量,而50表示低销量。(来源:由Nephron Research提供的经修改的DEA ARCOS数据集) 现在我们的遇到的情况是,从阿片类药物交易中分离出"药物强度因素"似乎可以产生一个符合我们两个标准的杰出连锁药店。但是,很难想象PCA产生的奇怪的条纹簇,尤其是PC1,它似乎代表了增长率的倒数,并且难以解释。 集群:版本3 然后,我们进行了三项改进。 首先, 我们根据县级以及人口对药房交易进行加权。通过单独的分析,我们知道,在2006-2012年间,县级阿片类药物处方与县级阿片类药物过量率显着相关: 县的每100人平均处方率与每100,000人的平均死亡率之间存在相当强的相关性(0.70)。 其次, 我们删除了所有与羟考酮,氢可酮和芬太尼有关的交易数据。 第三, 我们使用 "肘法则" 来解决四个不同的集群。结果: 聚类版本3 最终,通过第三次集群聚类,我们找到了: 大量的药店出售大量危险药物 (根据当地人口和处方药率进行调整),并迅速加速了这些药物的销售。此外,在1%的显着性水平下,高产量群集(在上图中的紫色和蓝色统称为)与正常产量群集不同。 比较独立药房和连锁药房 有了我们的聚类结果,我们又有了更多的预感。到目前为止,我们的聚类实验主要针对 连锁药店 ,这仅仅是因为到目前为止连锁药店在阿片类药问题中吸引了很多注意。但是,如果我们需要将分析应用于独立零售药店。夫妻商店是否能比连锁药店出售更多危险的阿片类药物? 简而言之:是的。 当我们在同一聚类分析中结合独立和连锁药房时,高收益独立药房的数量,远远超过了同类连锁药房。两种主要成分均在60%百分位以上的99家药店-称为超高收益药店- 所有99家都是独立零售商。 独立+链组中的高收益药房( 左侧为橙色簇 ),许多是独立药房( 右侧为浅蓝色 )。注意:此处将独立药房标记为"零售",因为它们在ARCOS数据集中表示。 放在一起 在我们项目开始之初,我们的任务是在庞大的ARCOS数据集中识别 可能存在问题的药房 。从2006年开始,结合数据汇总,k均值聚类和PCA以及其他CDC人群和处方数据,我们发现了一些连锁药店和独立药房,从2006年以来,这些药房大量购买了危险的阿片类药物,并以越来越高的速度增长至2012年。 充其量只是建议我们的分析牵涉那些药房,甚至暗示更大的责任。我们的方法只是ARCOS数据集许多潜在的数据驱动方法之一。 我们仍然希望连锁药房(而非独立药房)将与制造商和分销商一起继续进行阿片类药物诉讼。此外,尽管阿片类药物诉讼对象可能不针对单个独立药房,但我们希望DEA已确定并关闭了这些独立药房,并将继续这样做。 最终,我们的目的是证明无监督机器学习是理解ARCOS数据集的可行方法。随着阿片类药物诉讼的持续进行,这种方法无疑可以阐明谁在做什么,以及何时何地在做。
  • 热度 8
    2020-3-3 12:49
    1667 次阅读|
    0 个评论
    这些步骤可确保考虑每个数据源的偏差,并准确地说明问题所在。例如,对来自世界各地卫生机构的心脏病数据进行联合模型的训练可以消除在对一个国家的国内数据进行训练的模型中发现的种族和性别偏见。 保护隐私的需要 如今,对隐私的需求从未像现在这样迫切,数据的价值可比作石油,被认为是个人最重要的资产。个人生成的数据类型从看似无害的细节(如零售偏好)到高度敏感的信息(如病历),甚至是可能会影响的政治观点。 呼吁提高数据安全性的一种可能的答案(越来越受到关注)是 隐私保护机器学习 (也称为联合学习,或联盟学习)的发展。在较高的层次上,联合学习是一种机器学习方法,可以协同训练模型,并旨在通过使用差异隐私和分散数据来防止数据泄漏。因此,联合学习允许个人数据保持匿名,同时帮助建立强大的模型。 用最简单的术语来说, 联合学习 不会将您的数据发送给第三方,而是在加密每个步骤的同时将模型引入了数据中。 机器学习的未来是协作 隐私并不是使用联合学习来解决的唯一问题。它也消除了目前阻碍我们构建更高精度模型的障碍。 这样的问题之一是,没有中央资源可以提取训练这些模型所需的所有数据。训练覆盖整个情况的模型将需要一系列数据类型,通常分布在各个机构中。 例如,为了捕获个人的财务状况并提供洞察力,必须对在多个银行和信贷服务,在线零售行为和付款习惯中发现的数据进行训练。为了增加复杂性,同一公司各部门之间的数据传输可能会面临与管理或隐私相关的问题。 联合学习为各方面各不相同的各方提供了机会,以协作方式训练比在单一数据源上训练的模型更准确的模型。 联合学习 高层次的联合学习可以分为三个步骤: 1. 共享的全局机器学习模型在可用数据上进行训练,并部署在分散的平台上。 2. 将模型下载到边缘设备,可以是智能手机,笔记本电脑或其他智能设备,然后使用其包含的数据更新模型。 3. 更新(例如,计算出的梯度)将被加密并发送回服务器,在该服务器上,来自多个设备的更新将被平均并用于改善主要共享模型。 4. 然后,共享模型由边缘设备下载,从而使模型的数据贡献者和策展人受益。 这些步骤可确保考虑每个数据源的偏差,并准确地说明问题所在。例如,对来自世界各地卫生机构的心脏病数据进行联合模型的训练可以消除在对一个国家的国内数据进行训练的模型中发现的种族和性别偏见。 联合学习的组成部分 创建一个图表,以非常高的层次说明组成联合学习的各种元素: 构成联合学习基础的三点是: 隐私,数据结构和模型类型 。随着不断变化的景观,增加复杂性和增加深度的新研究进一步扩展了这些观点。 1. 隐私 -隐私是联合学习的最重要方面。无论数据的提供者是公司还是个人,隐私保护都可以增进协作的信任度,保护敏感数据,并确保个人的合法权利。 2. 数据结构 -联合学习根据模型在其上训练的数据结构进行分类。数据结构类别有以下三种类型: 水平联合学习、垂直联合学习和迁移学习 。这些结构描述了数据的组织方式,特别是数据集是否共享相同的特征空间,或者它们是否共享相同的样本。这两个描述分别涉及水平学习和垂直学习。 3. 模型类型 -简单来说,要训练的模型是神经网络还是统计学习模型。这将取决于数据类型,数据量和所需的预测结果。 联合学习数据结构图 未来发展方向 尽管联合学习可能成为解决跨多个设备的大量数据的问题的解决方案,但仍然存在一些障碍。 1. 资源瓶颈- 这些问题包括在训练期间连接的IoT设备的电池寿命不同的情况,这可能导致某些设备掉线。设备无法连接wifi,3G或4G网络等通信差异将影响网络。最后,网络上的设备之间的硬件规格(例如内存和CPU)可能会有所不同。 2. 数据差异— 每个设备上的数据在质量,数量和一致性上都会有所不同。例如, 如果收集用于人脸识别的图像数据,则图片中的照明,面部的多样性以及所贡献的数据量将影响本地训练的模型。 这些局部模型的质量差异很大,最终会影响全局模型的整体质量和准确性。
相关资源
  • 所需E币: 0
    时间: 2021-3-25 02:27
    大小: 611.88KB
    上传者: stanleylo2001
    基于机器学习的车位状态预测方法及系统
  • 所需E币: 1
    时间: 2021-3-22 15:08
    大小: 3.2MB
    上传者: Argent
    随着人工智能的不断崛起,当今对人工智能产品开发的人才需求也日益增加,从原来的单片机应用到现在的系统级高度集成的CPU开发,人类在电子领域不断创新,本人收集了有关机器人开发的资料,对这方面感兴趣的电子工程师们可以相互交流、借鉴学习。
  • 所需E币: 2
    时间: 2021-3-17 18:33
    大小: 611.88KB
    上传者: czdian2005
    基于机器学习的车位状态预测方法及系统
  • 所需E币: 0
    时间: 2021-3-15 21:03
    大小: 15.94KB
    上传者: Goodluck2020
    SiFive和CEVA在机器学习处理器领域展开合作.docx
  • 所需E币: 0
    时间: 2021-3-9 10:19
    大小: 11.13MB
    上传者: czd886
    基于机器学习的宿舍通道管理系统设计
  • 所需E币: 1
    时间: 2021-2-20 09:09
    大小: 7.21MB
    上传者: dbb422
    机器学习,神经网络框架,中文电子档供大家学习交流。
  • 所需E币: 5
    时间: 2021-1-26 15:18
    大小: 59.4MB
    《图解机器学习》,人民邮电出版社出版,外文书名:イラストで学ぶ機械学習,作者:[日]杉山将(作者),‎许永伟(译者)。《图解机器学习》用丰富的图示,从最小二乘法出发,对基于最小二乘法实现的各种机器学习算法进行了详细的介绍。第Ⅰ部分介绍了机器学习领域的概况;第Ⅱ部分和第Ⅲ部分分别介绍了各种有监督的回归算法和分类算法;第Ⅳ部分介绍了各种无监督学习算法;第Ⅴ部分介绍了机器学习领域中的新兴算法。书中大部分算法都有相应的MATLAB程序源代码,可以用来进行简单的测试。专业实用:东京大学教授、机器学习权威专家执笔,浓缩机器学习的关键知识点;图文并茂:187张图示帮助理解,详略得当,为读懂大部头开路。;角度新颖:基于最小二乘法讲解各种有监督学习的回归和分类算法,以及无监督学习算法。;实战导向:配有可执行的MATLAB程序代码,边学习边实践。《图解机器学习》图书目录第I部分 绪 论第1章 什么是机器学习21.1 学习的种类  21.2 机器学习任务的例子  41.3 机器学习的方法  8第2章 学习模型122.1 线性模型  122.2 核模型  152.3 层级模型  17第II部分 有监督回归第3章 最小二乘学习法223.1 最小二乘学习法  223.2 最小二乘解的性质  253.3 大规模数据的学习算法  27第4章带有约束条件的最小二乘法314.1 部分空间约束的最小二乘学习法  314.2 l2约束的最小二乘学习法  334.3 模型选择  37第5章 稀疏学习435.1 l1约束的最小二乘学习法  435.2 l1约束的最小二乘学习的求解方法  455.3 通过稀疏学习进行特征选择  505.4 lp约束的最小二乘学习法  515.5 l1+l2约束的最小二乘学习法  52第6章 鲁棒学习556.1 l1损失最小化学习  566.2 Huber损失最小化学习  586.3 图基损失最小化学习  636.4 l1约束的Huber损失最小化学习  65第III部分 有监督分类第7章 基于最小二乘法的分类707.1 最小二乘分类  707.2 0/1损失和间隔  737.3 多类别的情形  76第8章 支持向量机分类808.1 间隔最大化分类  808.2 支持向量机分类器的求解方法  838.3 稀疏性  868.4 使用核映射的非线性模型  888.5 使用Hinge损失最小化学习来解释  908.6 使用Ramp损失的鲁棒学习  93第9章 集成分类989.1 剪枝分类  989.2 Bagging学习法  1019.3 Boosting学习法  105第10章 概率分类法11210.1 Logistic回归  11210.2 最小二乘概率分类  116第11章序列数据的分类12111.1 序列数据的模型化  12211.2 条件随机场模型的学习  12511.3 利用条件随机场模型对标签序列进行预测  128第IV部分 无监督学习第12章 异常检测13212.1 局部异常因子  13212.2 支持向量机异常检测  13512.3 基于密度比的异常检测  137第13章 无监督降维14313.1 线性降维的原理  14413.2 主成分分析  14613.3 局部保持投影  14813.4 核函数主成分分析  15213.5 拉普拉斯特征映射  155第14章 聚类15814.1 K均值聚类  15814.2 核K均值聚类  16014.3 谱聚类  16114.4 调整参数的自动选取  163第V部分 新兴机器学习算法第15章 在线学习17015.1 被动攻击学习  17015.2 适应正则化学习  176第16章 半监督学习18116.1 灵活应用输入数据的流形构造  18216.2 拉普拉斯正则化最小二乘学习的求解方法  18316.3 拉普拉斯正则化的解释  186第17章 监督降维18817.1 与分类问题相对应的判别分析  18817.2 充分降维  195第18章 迁移学习19718.1 协变量移位下的迁移学习  19718.2 类别平衡变化下的迁移学习  204第19章 多任务学习21219.1 使用最小二乘回归的多任务学习  21219.2 使用最小二乘概率分类器的多任务学习  21519.3 多次维输出函数的学习  216第VI部分 结语第20章 总结与展望222参考文献  225
  • 所需E币: 0
    时间: 2020-12-25 21:10
    大小: 1.55MB
    上传者: czd886
    基于机器学习的多片FPGA的高速网络流量分类方法设计
  • 所需E币: 3
    时间: 2020-12-27 22:32
    大小: 39.13MB
    上传者: stanleylo2001
    Python机器学习及实践-从零开始通往KAGGLE竞赛之路
  • 所需E币: 5
    时间: 2020-12-18 23:58
    大小: 88.22KB
    上传者: samewell
    MATLAB机器学习:人工智能工程实践(原书第2版)
  • 所需E币: 3
    时间: 2020-12-14 15:42
    大小: 584.23KB
    上传者: sense1999
    机器学习新手的十大算法导览
  • 所需E币: 0
    时间: 2020-12-9 23:54
    大小: 709.77KB
    上传者: Goodluck2020
    基于机器学习的车位状态预测方法及系统
  • 所需E币: 1
    时间: 2020-9-27 17:12
    大小: 501.17KB
    上传者: 指的是在下
    机器学习随机优化方法的个体收敛性研究综述
  • 所需E币: 1
    时间: 2020-9-27 18:34
    大小: 547.22KB
    上传者: 指的是在下
    机器学习在网络入侵检测中的应用
  • 所需E币: 5
    时间: 2020-9-19 22:39
    大小: 38.01MB
    上传者: bwj312
    Python机器学习及实践-从零开始通往KAGGLE竞赛之路
  • 所需E币: 0
    时间: 2020-9-21 13:08
    大小: 232.86KB
    上传者: bwj312
    MATLAB机器学习:人工智能工程实践(原书第2版)
  • 所需E币: 0
    时间: 2020-9-13 15:20
    大小: 5.31MB
    上传者: fatbaby_853633539
    斯坦福大学机器学习课程原始讲义斯坦福大学机器学习课程个人学习笔记
  • 所需E币: 0
    时间: 2020-9-13 15:20
    大小: 6.01MB
    上传者: fatbaby_853633539
    斯坦福大学机器学习课程个人学习笔记(下)
  • 所需E币: 0
    时间: 2020-9-13 15:21
    大小: 2.98MB
    上传者: fatbaby_853633539
    斯坦福大学机器学习课程原始讲义
  • 所需E币: 5
    时间: 2020-9-9 17:41
    大小: 4.91MB
    上传者: 希望A
    【清华】机器学习MachineLearning.pdf
广告