本文讲述使用无监督数据增强(UDA)在半监督学习(SSL)中取得的进展。
为了理解"半监督",我们首先简要介绍一下无监督学习、监督学习和强化学习。
无监督学习
无监督学习是一种有组织的赫布Hebbian学习,有助于在没有预先存在的标签的情况下找到数据集中以前未知的模式。它也被称为自组织,允许对给定输入的概率密度进行建模。
如果它确实是一种赫布学习,那会带来什么?
赫布学习是最古老的学习算法之一,并且在很大程度上基于生物系统的动力学。当突触两侧的神经元(输入和输出)具有高度相关的输出时,两个神经元之间的突触得到加强。
赫布理论是一种神经科学理论,声称突触效应的增加源于突触前细胞对突触后细胞的重复和持续刺激。它试图解释突触可塑性,即学习过程中大脑神经元的适应性。
唐纳德·希伯在1949年出版一书中介绍了这一理论。本书已成为人工神经网络(ANN)发展基础的一部分。
在心理学中,它是如何在哺乳动物大脑中实施神经元连接的假设; 它也是一种人工神经网络中的权重选择技术。算法可以更新现代人工神经网络中神经连接的权重。通过改变神经权重和关联,工程师可以从ANN中获得不同的结果。
(1)无监督,通过对刺激的实际反应来加强权重;(2)监督,通过期望的反应加强权重。无监督的Hebbian学习(关联)具有权重变得任意大的问题,并且没有权重减少的机制。
无监督学习是包括监督和强化学习在内的主要三类机器学习之一。
无监督学习中使用的两种主要方法是:
主成分分析(PCA)是一种统计过程,它使用正交变换将可能相关变量的一组观察值(每个实体都采用各种数值)转换为一组称为主成分的线性不相关变量值。
PCA 以(1,3)为中心,在(0.866,0.5)方向上的标准偏差为3,在正交方向上的标准偏差为1。所示的是由相应特征值的平方根缩放的的特征向量,并且移位使得它们的尾部处于平均值。
聚类分析用于无监督学习,以对具有共享属性的数据集进行分组或分段,以推断算法关系。聚类分析是机器学习的一个分支,它对未标记,分类或分类的数据进行分组。该分析确定数据中的共性,并基于每个新数据中是否存在这些共性来做出反应。此方法有助于检测不适合任何一组的异常数据点。
聚类分析的结果显示为将正方形着色为三个聚类。
无法精确定义"集群"的概念,这是存在如此多聚类算法的原因之一。
使用的密度估计演示:真密度是以0和3为中心的两个高斯的混合,用蓝色曲线显示。在每个帧中,从分布中生成100个样本,以红色显示。以每个样本为中心,以灰色绘制高斯核。对高斯求平均得到密度估计,如虚线黑色曲线所示。
密度估计的非常自然的用途是对给定数据集的属性进行非正式调查。密度估计可以为数据中的偏度和多模态等特征提供有价值的指示。在某些情况下,他们会得出结论,然后可能被认为是显而易见的,而在另一些情况下,他们所做的只是为进一步分析或数据收集指明道路。
(1)概率论和统计学中的偏度是实值随机变量关于其均值的概率分布不对称性的度量。偏度值可以是正的或负的,或未定义。许多模型假设正态分布; 即,数据关于均值对称。正态分布的偏度为零。但实际上,数据点可能不是完全对称的。因此,理解数据集的偏度表明偏离平均值是正面还是负面。
(2)最基本意义上的多模态是一种交流理论和社会符号学。多模态描述了用于撰写消息的文本,听觉,语言,空间和视觉资源(或模式)方面的交流实践。
对于人工智能领域,多模态可以意味着使用机器学习技术将不同的信号一起解释,例如文本和图片。
科学出版商IGI Global对什么是多模态进行了概述?
一种形式,或者更明确地说,一种信息表示形式,是一种在某种媒介中表示信息的方式,多模态允许同时综合使用各种形式的交互,多种类型的媒体数据,或多种方面的一个数据项。它的重点是存在多种类型的数据。例如,数字广播新闻视频的剪辑具有多种形式,包括音频,视频帧,隐藏字幕(文本)等。
在统计中,多模态分布是具有两种或更多种模式的连续概率分布。
通过他解释了无监督学习在人类机器学习中的实用性:
无监督学习通常用于预处理数据。通常,这意味着在将其馈送到深度神经网络或其他监督学习算法之前,以与PCA或SVD类似的方式对其进行压缩。
关于无监督学习的主题当然还有很多要说的,但我们将继续进行有监督的学习。
在监督学习中,最佳方案将允许算法正确地确定看不见的实例的类标签。
通常认为两个重要方面是分类和回归。
分类是识别新观察所属的一组类别(子群体)中的哪一个的问题。
回归分析是一组用于估计变量之间关系的统计过程。
根据Stuart J. Russell,Peter Norvig(2010)在人工智能:现代方法中的应用: 监督学习是学习函数的机器学习任务,该函数基于示例输入 - 输出对将输入映射到输出。
1. 具有训练样例的标记训练数据的功能。
2. 每个示例都是一对(输入 - 输出)输入对象和输出值。
3. 监督学习算法分析训练数据并产生推断的功能。
4. 推断的函数可用于映射新示例。
通常传播或共享的步骤多于这些步骤。
最佳方案将允许算法正确地确定看不见的实例的类标签。这要求学习算法以"合理"的方式从训练数据推广到看不见的情况。
可能存在归纳偏差:学习者用来预测输出的一组假设,它没有遇到输入。尽管大多数学习算法都具有静态偏差,但是一些算法旨在在获取更多数据时改变其偏差。这不会避免偏差,因为偏移过程本身必须具有偏差。
一些挑战可能是:
· 偏差和方差权衡。几种不同但同样好的训练数据集。您是否应该灵活地适应数据?如果它太灵活,它可能以不同方式适合每个训练数据集。
· 功能复杂性和训练数据量。具有高偏差和低方差的简单"不灵活"学习算法可以从少量数据中学习。高度复杂的功能只能从大量的训练数据中学习,并使用具有低偏差和高差异的"灵活"学习算法。
· 输入空间的维度。高维空间(100或1000)。空间的体积增加太多,数据变得稀疏。例如,计算优化问题中的每个值组合。如果你想要一个奥术倾斜,这一点可以被称为的。
· 输出值中的噪声。如果期望的输出值通常不正确(由于人为错误或传感器错误),则学习算法不应尝试找到与训练示例完全匹配的功能。通过早期停止和异常检测可以减轻噪音(参见无监督学习)。
· 数据的异质性。输入多样性质或内容往往与同质性(相似性)相反。
· 数据中的冗余。更多地重视已经重复多次的信息。这可能意味着单个数据库中的两个不同字段,或多个软件环境或平台中的两个不同字段。积极的数据冗余类型可以保护数据并提高一致性
· 存在相互作用和非线性。线性函数和距离函数与决策树或神经网络的问题。如果每个特征对输出做出独立贡献,则如果特征之间存在复杂的相互作用,则第一个特征可以是(线性/距离),那么第二个(决策/神经)可以是解决方案。
此外,还存在过拟合或欠拟合的普遍存在的对立问题。
绿线表示过拟合的模型,黑线表示正则化模型。虽然绿线最好遵循训练数据,但它太依赖于该数据,并且与黑线相比,新的看不见的数据可能具有更高的错误率。
统计中的过拟合是"产生与特定数据集过于紧密或完全对应的分析,因此可能无法拟合其他数据或可靠地预测未来的观测结果"。
当统计模型不能充分捕获数据的基础结构时,就会发生欠拟合。一个欠拟合模型就是将出现在正确指定的模型某些参数或术语缺少的典范。
什么是合适的?我们可以在这个问题上形成一个更有争议的哲学观点。社会科学家,政治家和工程师可能会非常不同意这一点。最后是模型性能。表现是一个人,机器等完成一项工作或活动的程度。在制作算法时肯定有不同的目标。
为了谈论欠拟合与过拟合,我们需要从基础开始:什么是模型?模型只是将输入映射到输出的系统。
没有算法可以解决所有问题。在这种背景下提到热闹而严肃的没有免费午餐定理总是很有趣。 在优化和计算复杂性中,这是一个结果,表明对于某些类型的数学问题,找到解决方案的计算成本(计算模型使用的资源),对于类中的所有问题的平均值,对于任何解决方法方法都是相同的。从这个意义上说,没有捷径。
然而Wolpert和Macready已经证明了共同进化优化中的免费午餐。这将优雅地带到下一部分。
强化学习
强化学习是三种基本的机器学习范例之一,同时还有监督学习和无监督学习。
它与监督学习的不同之处在于不需要呈现标记的输入/输出对,并且不需要明确地校正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡点。
强化学习(RL)是机器学习的一个领域,涉及软件代理应该如何在一个环境中采取行动,以最大化一些累积奖励的概念。
软件代理:一种计算机程序,代表用户或代理关系中的其他程序。
代理人观察环境,采取行动与环境互动,并获得积极或消极的回报。
然而,该模型也可以这种方式表示:
强化学习(RL)场景的典型框架:代理在环境中执行操作,该环境被解释为状态的奖励和表示,其被反馈到代理中。
马尔可夫决策过程(MDP)往往是如何基本的强化学习,往往被另一位作家为迈向数据科学 在他的文章中介绍了这种模式:
该马尔科夫特性指出,"未来是独立给出了现在。过去的"一旦在已知的当前状态,信息迄今为止所遇到的历史可能被丢弃,而这种状态是足够的统计数字,让我们同对未来的描述就像我们拥有所有的历史一样马尔可夫奖励过程或MRP是一个带有价值判断的马尔可夫过程,说明通过我们对马尔可夫决策过程进行抽样的特定序列积累了多少奖励。 MDP是具有决策的马尔可夫奖励过程,它是所有状态都是马尔可夫的环境。
一个有趣的例子在学生马尔可夫决策过程(MDP)中说明了这一点。学习,睡觉,酒吧,脸书,退出 - 不容易回答?这显然是英国的MDP。
学生MDP中的状态价值函数。
通过反复试验,有一项尝试任务,目标是最大化长期奖励,并且代理人在没有培训数据的情况下从经验中学习。
如前所述的环境通常被表述为MDP。用于该上下文的许多强化学习算法利用动态编程技术。
动态编程是指通过以递归方式将其分解为更简单的子问题来简化复杂问题。如果子问题可以在较大的问题中递归嵌套,那么动态编程方法是适用的,则较大问题的值与子问题的值之间存在关系。
当事物根据其自身或类型定义时,就会发生递归。递归有时在计算机科学,程序设计,哲学或数学教科书中幽默地使用,通常通过给出循环定义或自我引用,其中假定的递归步骤不接近基本情况,而是导致无限回归。这些书在其词汇表中包含一个笑话条目并不罕见:递归,请参阅递归。
强化学习是由于其在许多其他学科中的普遍性,包括:博弈论,控制理论,运筹学,信息论,基于模拟的优化,多智能体系统,群智能,统计和遗传算法。
这些不同的机器学习任务:无监督学习,监督学习和强化学习是不同的但是互补的。如果你想了解更多关于每一个我推荐阅读在他的系列机器学习中的文章。
还描述了半监督学习,并且是监督和非监督技术的混合。
半监督学习是一类机器学习任务和技术,它们也利用未标记的数据进行训练 - 通常是少量带有大量未标记数据的标记数据。半监督学习介于无监督学习(没有任何标记的训练数据)和监督学习(具有完全标记的训练数据)之间。
半结构化数据是一种结构化数据形式,不遵循与关系数据库或其他形式的数据表相关联的数据模型的正式结构,但仍包含标签或其他标记来分隔语义元素并强制执行记录和字段的层次结构数据。
当您没有足够的标记数据来生成准确的模型而您没有能力或资源来获得更多时,您可以使用半监督技术来增加训练数据的大小。
因此,半监督学习对于网页分类,语音识别甚至遗传测序等用例来说都是双赢的。在所有这些情况下,数据科学家都可以访问大量未标记的数据,但实际将监督信息分配给所有这些数据的过程将是一项不可逾越的任务。
半监督分类:标记数据用于帮助识别数据中存在特定的网页类型组以及它们可能是什么。然后,对未标记数据训练该算法以定义那些网页类型的边界,甚至可以识别在现有人类输入标签中未指定的新类型的网页。
无监督数据增强(UDA)中提出的方法采用了高度针对性的数据增强,以产生多样化和真实的扰动,并使模型在这些扰动方面保持平滑。
· 使用生成的类似文本或增强图像的示例。使用其他相关示例扩充图片。
· 他们还提出了一种名为TSA的技术,当有更多未标记的数据可用时,它可以有效地防止UDA过度拟合监督数据。
· 对于文本,UDA与表示学习(例如BERT )很好地结合,并且在低数据机制中非常有效,其中仅在20个示例的IMDb上实现了最先进的性能。对于愿景,UDA在严重基准的半监督学习设置中将错误率降低了30%以上。
· 最后,UDA可以有效地利用域外未标记数据,并在存在大量监督数据的ImageNet上实现改进的性能。在博客文章中他们说:
我们的结果支持最近半监督学习的复兴,表明:(1)SSL可以匹配甚至优于使用数量级更多标记数据的纯监督学习。(2)SSL在文本和视觉两个领域都能很好地工作。 (3)SSL与传输学习很好地结合,例如,当从BERT微调时。
展示了两张图片来说明模型:
无监督数据增强(UDA)概述。左:标记数据可用时计算标准监督损失。右:使用未标记的数据,会在示例与其扩充版本之间计算一致性损失
基于文本(顶部)或基于图像(底部)训练数据的示例增强操作。
测量无处不在 2019-11-11 09:45
curton 2019-11-7 20:35