 

红旗不倒

文章：162 阅读：723607 评论：108 赞：6646

扛起电子圈大旗

 好友  私信个人主页

扛起电子圈大旗

文章 162
原创 0
阅读 723607
评论 108
赞 6646

原创无监督数据增强应用于半监督学习中的进展

 2019-11-7 15:50  3282 19 3 分类: 机器人/ AI 文集: 人工智能

本文讲述使用无监督数据增强（UDA）在半监督学习（SSL）中取得的进展。

什么是无监督学习、监督学习和强化学习？

为了理解"半监督"，我们首先简要介绍一下无监督学习、监督学习和强化学习。

无监督学习

无监督学习是一种有组织的赫布Hebbian学习，有助于在没有预先存在的标签的情况下找到数据集中以前未知的模式。它也被称为自组织，允许对给定输入的概率密度进行建模。

如果它确实是一种赫布学习，那会带来什么？

赫布学习是最古老的学习算法之一，并且在很大程度上基于生物系统的动力学。当突触两侧的神经元（输入和输出）具有高度相关的输出时，两个神经元之间的突触得到加强。

赫布理论是一种神经科学理论，声称突触效应的增加源于突触前细胞对突触后细胞的重复和持续刺激。它试图解释突触可塑性，即学习过程中大脑神经元的适应性。

唐纳德·希伯在1949年出版一书中介绍了这一理论。本书已成为人工神经网络（ANN）发展基础的一部分。

在心理学中，它是如何在哺乳动物大脑中实施神经元连接的假设; 它也是一种人工神经网络中的权重选择技术。算法可以更新现代人工神经网络中神经连接的权重。通过改变神经权重和关联，工程师可以从ANN中获得不同的结果。

（1）无监督，通过对刺激的实际反应来加强权重；（2）监督，通过期望的反应加强权重。无监督的Hebbian学习（关联）具有权重变得任意大的问题，并且没有权重减少的机制。

无监督学习是包括监督和强化学习在内的主要三类机器学习之一。

无监督学习中使用的两种主要方法是：

主要组成部分
聚类分析

主成分分析（PCA）是一种统计过程，它使用正交变换将可能相关变量的一组观察值（每个实体都采用各种数值）转换为一组称为主成分的线性不相关变量值。

PCA 以（1,3）为中心，在（0.866,0.5）方向上的标准偏差为3，在正交方向上的标准偏差为1。所示的是由相应特征值的平方根缩放的的特征向量，并且移位使得它们的尾部处于平均值。

聚类分析用于无监督学习，以对具有共享属性的数据集进行分组或分段，以推断算法关系。聚类分析是机器学习的一个分支，它对未标记，分类或分类的数据进行分组。该分析确定数据中的共性，并基于每个新数据中是否存在这些共性来做出反应。此方法有助于检测不适合任何一组的异常数据点。

聚类分析的结果显示为将正方形着色为三个聚类。

无法精确定义"集群"的概念，这是存在如此多聚类算法的原因之一。

无监督学习的核心应用是密度估计领域

使用的密度估计演示：真密度是以0和3为中心的两个高斯的混合，用蓝色曲线显示。在每个帧中，从分布中生成100个样本，以红色显示。以每个样本为中心，以灰色绘制高斯核。对高斯求平均得到密度估计，如虚线黑色曲线所示。

密度估计的非常自然的用途是对给定数据集的属性进行非正式调查。密度估计可以为数据中的偏度和多模态等特征提供有价值的指示。在某些情况下，他们会得出结论，然后可能被认为是显而易见的，而在另一些情况下，他们所做的只是为进一步分析或数据收集指明道路。

（1）概率论和统计学中的偏度是实值随机变量关于其均值的概率分布不对称性的度量。偏度值可以是正的或负的，或未定义。许多模型假设正态分布; 即，数据关于均值对称。正态分布的偏度为零。但实际上，数据点可能不是完全对称的。因此，理解数据集的偏度表明偏离平均值是正面还是负面。

（2）最基本意义上的多模态是一种交流理论和社会符号学。多模态描述了用于撰写消息的文本，听觉，语言，空间和视觉资源（或模式）方面的交流实践。

对于人工智能领域，多模态可以意味着使用机器学习技术将不同的信号一起解释，例如文本和图片。

科学出版商IGI Global对什么是多模态进行了概述？

一种形式，或者更明确地说，一种信息表示形式，是一种在某种媒介中表示信息的方式，多模态允许同时综合使用各种形式的交互，多种类型的媒体数据，或多种方面的一个数据项。它的重点是存在多种类型的数据。例如，数字广播新闻视频的剪辑具有多种形式，包括音频，视频帧，隐藏字幕（文本）等。

在统计中，多模态分布是具有两种或更多种模式的连续概率分布。

双变量，多模态分布

通过他解释了无监督学习在人类机器学习中的实用性：

无监督学习通常用于预处理数据。通常，这意味着在将其馈送到深度神经网络或其他监督学习算法之前，以与PCA或SVD类似的方式对其进行压缩。

关于无监督学习的主题当然还有很多要说的，但我们将继续进行有监督的学习。

监督学习

在监督学习中，最佳方案将允许算法正确地确定看不见的实例的类标签。

通常认为两个重要方面是分类和回归。

分类是识别新观察所属的一组类别（子群体）中的哪一个的问题。

回归分析是一组用于估计变量之间关系的统计过程。

根据Stuart J. Russell，Peter Norvig（2010）在人工智能：现代方法中的应用：监督学习是学习函数的机器学习任务，该函数基于示例输入 - 输出对将输入映射到输出。

1. 具有训练样例的标记训练数据的功能。

2. 每个示例都是一对（输入 - 输出）输入对象和输出值。

3. 监督学习算法分析训练数据并产生推断的功能。

4. 推断的函数可用于映射新示例。

通常传播或共享的步骤多于这些步骤。

最佳方案将允许算法正确地确定看不见的实例的类标签。这要求学习算法以"合理"的方式从训练数据推广到看不见的情况。

可能存在归纳偏差：学习者用来预测输出的一组假设，它没有遇到输入。尽管大多数学习算法都具有静态偏差，但是一些算法旨在在获取更多数据时改变其偏差。这不会避免偏差，因为偏移过程本身必须具有偏差。

一些挑战可能是：

· 偏差和方差权衡。几种不同但同样好的训练数据集。您是否应该灵活地适应数据？如果它太灵活，它可能以不同方式适合每个训练数据集。

· 功能复杂性和训练数据量。具有高偏差和低方差的简单"不灵活"学习算法可以从少量数据中学习。高度复杂的功能只能从大量的训练数据中学习，并使用具有低偏差和高差异的"灵活"学习算法。

· 输入空间的维度。高维空间（100或1000）。空间的体积增加太多，数据变得稀疏。例如，计算优化问题中的每个值组合。如果你想要一个奥术倾斜，这一点可以被称为的。

· 输出值中的噪声。如果期望的输出值通常不正确（由于人为错误或传感器错误），则学习算法不应尝试找到与训练示例完全匹配的功能。通过早期停止和异常检测可以减轻噪音（参见无监督学习）。

· 数据的异质性。输入多样性质或内容往往与同质性（相似性）相反。

· 数据中的冗余。更多地重视已经重复多次的信息。这可能意味着单个数据库中的两个不同字段，或多个软件环境或平台中的两个不同字段。积极的数据冗余类型可以保护数据并提高一致性

· 存在相互作用和非线性。线性函数和距离函数与决策树或神经网络的问题。如果每个特征对输出做出独立贡献，则如果特征之间存在复杂的相互作用，则第一个特征可以是（线性/距离），那么第二个（决策/神经）可以是解决方案。

此外，还存在过拟合或欠拟合的普遍存在的对立问题。

绿线表示过拟合的模型，黑线表示正则化模型。虽然绿线最好遵循训练数据，但它太依赖于该数据，并且与黑线相比，新的看不见的数据可能具有更高的错误率。

统计中的过拟合是"产生与特定数据集过于紧密或完全对应的分析，因此可能无法拟合其他数据或可靠地预测未来的观测结果"。

当统计模型不能充分捕获数据的基础结构时，就会发生欠拟合。一个欠拟合模型就是将出现在正确指定的模型某些参数或术语缺少的典范。

什么是合适的？我们可以在这个问题上形成一个更有争议的哲学观点。社会科学家，政治家和工程师可能会非常不同意这一点。最后是模型性能。表现是一个人，机器等完成一项工作或活动的程度。在制作算法时肯定有不同的目标。

为了谈论欠拟合与过拟合，我们需要从基础开始：什么是模型？模型只是将输入映射到输出的系统。

没有算法可以解决所有问题。在这种背景下提到热闹而严肃的没有免费午餐定理总是很有趣。在优化和计算复杂性中，这是一个结果，表明对于某些类型的数学问题，找到解决方案的计算成本（计算模型使用的资源），对于类中的所有问题的平均值，对于任何解决方法方法都是相同的。从这个意义上说，没有捷径。

然而Wolpert和Macready已经证明了共同进化优化中的免费午餐。这将优雅地带到下一部分。

强化学习

强化学习是三种基本的机器学习范例之一，同时还有监督学习和无监督学习。

它与监督学习的不同之处在于不需要呈现标记的输入/输出对，并且不需要明确地校正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡点。

强化学习（RL）是机器学习的一个领域，涉及软件代理应该如何在一个环境中采取行动，以最大化一些累积奖励的概念。

软件代理：一种计算机程序，代表用户或代理关系中的其他程序。

代理人观察环境，采取行动与环境互动，并获得积极或消极的回报。

然而，该模型也可以这种方式表示：

强化学习（RL）场景的典型框架：代理在环境中执行操作，该环境被解释为状态的奖励和表示，其被反馈到代理中。

马尔可夫决策过程（MDP）往往是如何基本的强化学习，往往被另一位作家为迈向数据科学在他的文章中介绍了这种模式：

该马尔科夫特性指出，"未来是独立给出了现在。过去的"一旦在已知的当前状态，信息迄今为止所遇到的历史可能被丢弃，而这种状态是足够的统计数字，让我们同对未来的描述就像我们拥有所有的历史一样马尔可夫奖励过程或MRP是一个带有价值判断的马尔可夫过程，说明通过我们对马尔可夫决策过程进行抽样的特定序列积累了多少奖励。 MDP是具有决策的马尔可夫奖励过程，它是所有状态都是马尔可夫的环境。

一个有趣的例子在学生马尔可夫决策过程（MDP）中说明了这一点。学习，睡觉，酒吧，脸书，退出 - 不容易回答？这显然是英国的MDP。