一、背景介绍
机器学习是一门多学科交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂性理论等多个学科。它专门研究计算机如何模拟或实现人类的学习行为,以获得新的知识或技能,并重组现有的知识结构,以不断提高自身的性能。它是人工智能的核心,是使计算机智能化的根本途径,它应用于人工智能的各个领域,它主要采用归纳法、综合法而不是演绎法。它已应用于人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
机器学习是人工智能研究中一个比较年轻的分支,其发展过程大致可以分为四个时期。第一阶段,从50年代中期到60年代中期,是一个紧张的时期。在这一时期,学习是“无知识”的学习,即“无知”的学习。研究对象是各种自组织系统和自适应系统,主要研究方法是不断修改系统的控制参数,提高系统的执行能力,不涉及与具体任务相关的知识。这一阶段的代表作是:塞缪尔的象棋程序。但是这种学习的结果远远不能满足人们对机器学习系统的期望。第二阶段,从20世纪60年代中期到70年代中期,被称为机器学习的冷却期。这一阶段的研究目标是模拟人类的概念学习过程,用逻辑结构或图形结构作为机器的内部描述。这一阶段的代表作包括温斯顿的结构学习系统和海耶斯·罗斯等人的基本逻辑归纳学习系统。从70年代中期到80年代中期的第三个阶段称为文艺复兴时期。在这一时期,人们从学习单一概念扩展到学习多个概念,探索了不同的学习策略和方法。现阶段,他们已经开始将学习系统与各种应用相结合,并取得了巨大的成功,推动了机器学习的发展。1980年,卡内基梅隆大学召开了第一届机器学习国际会议,标志着机器学习研究在世界范围内的兴起。
机器学习本质上是使计算机模拟人类的学习行为,通过学习自动获取知识和技能,不断提高性能,实现人工智能。
随着计算机网络技术的发展,各行各业积累了越来越多的数字数据,如微博数字化的聊天记录、数字视频传感信息、大数据(Big Data)成为一个热门的研究课题,在这种趋势下,如何分析这些数据,我们可能会发现蕴涵的规律和有价值的信息,机器学习我想坐下来。
二、研究现状
1)任务导向:分析和开发一些预定任务的学习系统,以提高任务的完成水平,这是专家系统研究中提出的一个研究问题;
2)认知模拟:主要研究人的学习过程和计算机行为的模拟,是一个心理学的研究课题;
3)理论分析研究:从理论上探索各种可能的学习方法和独立于应用领域的各种算法的空间。
这三个研究方向都有各自的研究目标,每个方向的进展都会促进另一个方向的研究。这三个方面的研究将促进学习的各个方面问题和基本概念的交叉结合,促进机器学习的整体研究。
三、机器学习主要算法
1)回归算法
在大多数机器学习课程中,回归算法是最先引入的算法。有两个原因。回归算法相对简单,并且它们的引入允许从统计到机器学习的平滑迁移。二。回归算法是以下几种强大算法的基石,如果你不了解回归算法,你就无法学习那些强大的算法。回归算法有两个重要的子类:线性回归和logistic回归。
2)神经网络
神经网络(又称人工神经网络,ANN)算法在20世纪80年代的机器学习中非常流行,但在90年代中期逐渐衰落,现在随着“深度学习”,神经网络又重新成为最强大的机器学习算法之一。
神经网络的诞生源于对大脑工作机制的研究。早期生物学家用神经网络来模拟大脑。机器学习学者利用神经网络进行机器学习实验,发现视觉和语音识别的效果相当好。BP算法(数值算法)诞生后,神经网络的发展进入了一个热潮。BP算法的发明者之一是前面提到的机器学习大师杰弗里·辛顿。具体来说,神经网络的学习机制是什么?简而言之,就是分解和整合。
3)支持向量机
支持向量机算法诞生于统计学习领域,同时在机器学习领域闪耀着经典算法的光芒。
从某种意义上说,支持向量机算法是logistic回归算法的改进:通过给logistic回归算法更严格的优化条件,支持向量机算法可以获得比logistic回归更好的分类边界。但在没有函数技术的情况下,支持向量机算法充其量是一种较好的线性分类方法。
然而,通过与高斯核相结合,支持向量机可以表达非常复杂的分类边界,从而达到很好的分类效果“核”其实是一种特殊的函数,最典型的特点是它能将低维空间映射到高维空间。
4)聚类算法
前一种算法的一个显著特点是训练数据中包含标签,训练模型可以预测其他未知数据的标签。在下面的算法中,训练数据不包含标签,算法的目的是通过训练来推断这些数据的标签。这种算法有一个总称,即无监督算法(有标记数据的算法称为监督算法)。聚类算法是无监督算法最典型的代表。
我们再来看一个二维数据集,其中给定的数据集包含两个特征。我想使用一个聚类算法来标记不同的种类。我该怎么做?简单地说,聚类算法就是计算群体中的距离,并根据距离将数据分成多组。聚类算法最典型的代表是K-means算法。
5)降维算法
降维算法也是一种无监督学习算法,其主要特点是将数据从高维降到低维。这里,维度实际上表示数据的特征量的大小。例如,房价包含了房屋的长度、宽度、面积和房间数四个特征,即维度4的数据。如您所见,长度和宽度实际上与面积信息重叠,例如面积=长度×宽度。通过降维算法去除冗余信息,将特征降为面积和房间数两个特征,即将四维数据压缩为二维数据。因此,我们将数据从高维降到低维,这样不仅有利于表示,而且计算速度快。
6)推荐算法
推荐算法是目前业界非常流行的一种算法,已经广泛应用于电子商务业务中,如亚马逊、天猫、京东等,推荐算法的主要特点是可以自动向用户推荐自己最感兴趣的东西,从而提高采购率,提高效率。推荐算法主要有两类:一类是基于文章内容的推荐,是将用户购买的意愿和内容相似的商品推荐给用户,这是每个商品都有几个标签的前提,这样他们就可以找到相似的商品给用户购买商品,这样推荐的好处是关联度比较大,但是因为每个项目都需要标注,所以工作量比较大。
7)其他
除上述算法外,机器学习中还有高斯判别、朴素贝叶斯、决策树等算法。但上面列出的六种算法是使用最多、影响最大、最全面的。机器学习的一个特点是算法太多,百花齐放。
四、机器学习面临的挑战
目前,以深度研究为代表的机器学习的研究和应用领域看到了巨大的进步,大力推动了人工智能的发展,但也应该看到,以深度研究为代表的机器学习的前沿仍然是一个新生事物,大多数结论都是从实验或经验中得出的,还有待于深入的理论研究和支持。纽约大学教授、CNN主持人和创始人之一Yann Lucan2015IEEE计算机视觉和模式识别会议上指出了深度学习的几个关键限制:工作背后缺乏理论基础和推理机制;缺乏短期记忆;不允许无监督学习。
此外,基于多层人工神经网络的深度学习受到了人类大脑皮层分层工作的启发。虽然深度学习是目前最接近人脑的智能学习方法,但目前的深度网络还在结构中!特征!这种机制和人脑有很大的区别。而且,大脑皮层本身的结构和机制还缺乏准确的认知,因此要真正模拟由人脑100多亿个神经元组成的神经系统仍然很困难。因此,计算神经科学还有很长的路要走。
还有,网络结构的机器学习模型!算法和参数越来越庞大和复杂。通常,只有在大数据量和大计算量的支持下,才能训练出精确的模型,这对操作环境的要求越来越高!它也消耗了越来越多的资源,这提高了它的应用门槛。
总之,机器学习在方兴未艾,具有广阔的研究和应用前景的同时,也面临着不容忽视的挑战。只有将两者结合起来,机器学习才能推向更高的层次。
五、结论
本文对机器学习进行了全面的介绍,包括机器学习的概念、发展历史和分类,重点分析了机器学习的经典算法,同时也介绍了机器学习的最新研究进展。最后讨论了机器学习面临的挑战。毋庸讳言,通过深度学习机器学习作为人工智能的一个重要分支,目前在很多领域已经取得了很大的进展,并显示出很强的发展潜力,但应该看到更多的是,机器学习仍然处于人工智能处理的初级阶段,机器学习仍然主要依靠监督对学习的研究,不能跨越人工智能的薄弱环节,而作为基于机器学习模型的大脑认知研究又填补了许多空白!机器学习本身急需新的突破!计算机科学与技术及相关学科的发展和支撑有待进一步加强。因此,对于机器学习,我们必须有很长很长的路要走。