什么是 AI 管道?AI 管道是一种自动化机器学习工作流程的方法。AI 管道 一般包括四个主要阶段:
*预处理
*学习
*评估
*预言
一、什么是机器学习操作?
术语“Ops”是“操作”的简写,被附加到许多不同的术语中,以表示对适合单个学科的多个相互关联的流程进行精简。例如,这种框架设备更常见的用途之一是“DevOps”,或将多个流程(如测试、错误跟踪、监控和迭代敏捷开发)集成到单个管道中。
集成操作发挥巨大作用的另一个地方是机器学习。机器学习是一个包含多个关键组件的复杂过程,而最佳地执行这些组件可以证明是可靠机器学习平台的成败。
MLOps 是 AI 平台的关键部分,部分原因在于机器学习和 AI 之间的关系:
*人工智能平台为智能机器提供动力:更大的机器,包括分析平台和制造系统,由可以持决策和优化的人工智能提供支持。人工智能通常包含几个组件,其中之一是机器学习。
*神经网络大脑为人工智能提供动力:神经网络是根据我们在人脑中观察到的情况建模的——也就是说,思维过程由神经元等较小的组件组成,将输入处理成越来越复杂的过程。创造性思维是相对简单的任务完成的涌现结果。
*机器学习算法教授神经网络:机器学习算法在机器学习管道的推动下,获取数据并通机器学习模型运行,以了解特定系统及其工作方式。机器学习算法使用的模型可能会改变它们的学习方式,但基线操作是算法优化战略思维,可以作为人工智能平台的基础。
因此,人工智能管道包括背景机器学习算法,这些算法向系统教授环境策略,形成一个更大的人工智能,可以驱动它所连接的任何系统或机器。人工智能管道本质上是一个机器学习管道。
二、什么是 AI 管道?
人工智能或机器学习管道是相互连接且流线型的操作集合。从数据收集到训练模型,这些信息会进入并通过机器学习系统。
AI 管道由“工作流”或交互路径组成,数据通过这些路径在机器学习平台中移动。一般来说,这些工作流程由以下阶段组成:
*数据摄取:人工智能训练需要大量信息才能实际训练运行它的算法。在现代数据平台出现之前,收集这么多数据几乎是不可能的。现在,人工智能平台从数据库、用户输入和混合云系统等多个来源提取数据。
*数据清理:通过这些方法收集的大多数数据都是非结构化的。它不是遵循相同的清除、识别和分类过程的数据。第一步是筛选出损坏或重复的数据,或简单的“虚拟数据”,这对机器学习没有帮助。
*预处理:顾名思义,非结构化数据没有以适当处理所需的结构化方式进行分类、格式化或存储。预处理是在处理之前自动分类和存储以供使用。
*建模:机器学习系统然后根据给定的应用领域创建或改进模型——本质上,系统是使用摄取的数据进行训练的。机器学习系统将创建和利用模型来推动智能决策并为未来的模型提供信息。
*部署:人工智能可以被部署以供最终用户、业务用户或数据科学家使用。
工作流(以及管道)将信息从收集转移到最终部署,并代表一个迭代过程,该过程不断将新信息(来自数据收集阶段和用户交互)提供给机器学习和人工智能系统,以用于学习和处理目的。
三、ML工作流程如何塑造 AI 管道?
虽然我们了解 AI 管道的作用,但了解 AI 进程如何在这些管道中发挥作用也很重要。
人工智能有几个阶段,作为其“学习”过程的一部分。这些阶段包括:
(1)预处理
虽然我们已经介绍了这一部分,但重要的是要了解 ML 工作流的几个阶段用作 AI 应用程序的预处理。这包括清理数据、构建数据并为 AI 学习模型做好准备。
(2)学习
机器学习本身就是一门完整的学科,也是人工智能的一个子集。作为人工智能系统的一部分,机器学习算法将使用不同的模型来处理数据。
支持 AI 管道的一些最常见的机器学习形式包括:
*监督学习:监督学习是数据科学家如何根据样本输入为机器学习算法提供所需输出的示例。然后,机器学习算法使用这种相关性来学习如何根据输入和输出之间的关系来最好地构建它们的行为。这就像一个代数方程,机器学习在其中学习如何最好地求解给定样本数的“X”。这种学习形式支持数据分类和分析等应用类型。
*无监督学习:顾名思义,这种学习形式省略了任何结构化输出供机器学习学习。相反机器学习算法使用数据集来了解该数据中的固有模式以及如何最好地将其用于特定任务。这种机器学习支持数据挖掘和数据组织等高级战略行动。
*强化学习:强化学习主要与数字或物理系统中的代理相关,并使用行动和奖励教学来帮助这些代理学习如何在这些环境中对战略行动进行建模。这种学习最常用于多人游戏中。
*深度学习:深度学习是一种教学形式,它使用神经网络层来促进复杂任务的机器学习,
例如物理系统的模式识别,例如图像和面部识别。这种学习形式并非排他性的,因为它由神经网络驱动,以促进更广泛的学习技术。因此,例如,您可以将深度学习技术与列出的任何方法一起使用。深度强化学习是非常先进的系统机器学习的一种常见形式。
(3)评估
人工智能系统由使用机器学习技术和技术创建的“训练有素”的大脑驱动,评估来自用户输入的传入数据。此阶段要求提供给 AI 的信息与其预期接收的信息相匹配,并且它已经接受过培训。
请注意,在构建用于 AI 平台的非结构化数据的过程中,必须以标准化的方式对其进行组织。无论您使用有监督还是无监督的数据,它都将以标准化的方式进行结构化。
(4)预测
基于通过学习过程学到的策略,人工智能将根据信息做出预测,从而为决策提供信息。这可以包括机器为用户提供的洞察力、它如何驾驶其他机器(如自动驾驶汽车或制造设备)或对风险管理表执行复杂的分析。
四、使用 WEKA 云基础架构为 AI 管道供电
AI 管道需要大量资源:计算能力、随时可用的存储、灾难恢复和备份、机器学习应用程序的专用硬件等。典型的云环境通常不具备这种能力。相反,数据科学家转向专门的混合云环境来运行他们复杂的 AI 管道。
WEKA 提供了这样一个环境,包括以下功能:
*流线型和快速的云文件系统,将多个源组合到一个高性能计算系统中
*业界最佳的 GPUDirect 性能(单个 DGX-2 为 113 Gbps,单个 DGX A100 为 162 Gbps)
*针对治理、风险和合规性要求的动态和静态加密
*边缘、核心和云开发的敏捷访问和管理
*可扩展至数十亿文件的 EB 级存储
文章评论(0条评论)
登录后参与讨论