tag 标签: WEKA

相关博文
  • 2022-11-24 22:25
    0 个评论
    【端到端存储解决方案】Weka,让企业【文件存储】速度飞起来!
    一、HK-Weka概述 虹科WekaIO(简称 HK-Weka )是一个可共享、可扩展的文件存储系统解决方案,其并行文件系统WekaFS支持NVMeoF的flash-native并行文件系统、比传统的NAS存储及本地存储更快。 HK-Weka 后端主机被配置为集群,它与安装在应用程序服务器上的HK-Weka客户端一起,构成了一个大型的可共享、分布式和可扩展的文件存储系统: *可共享 :所有客户端都可以共享相同的文件系统,任何客户端写入的任何文件都可以立即供读取数据的客户端使用。从POSIX标准(由IEEE和ISO/IEC开发)看,HK-Weka是一个强一致性、符合POSIX标准的系统。 *分布式 :HK-Weka系统由多个后端组成集群,每个后端都同时提供服务。 *可扩展 :HK-Weka系统的线性性能取决于集群的大小。对于大小为X且具有一定性能的群集,如果将群集加大到2倍,其性能将提高两倍,这非常适用于数据和元数据。 在数据泛滥的时代,数据会造成瓶颈和资源紧张,而HK-Weka将数据分解,统一企业内的数据孤岛、加快数据洞察时间。通过HK-Weka,企业可以获得一个应用程序敏捷、管理简单、成本低廉的端到端存储解决方案,改变让应用程序因为数据缺乏而降低处理速度的现状,从而更容易、更快、更安全地管理数据。HK-Weka为解决数据爆炸问题、提升数据价值提供了新的方向: 解决大问题 加快创新:比传统存储快10倍 安心扩展:线性性能,可同时扩展到100多PB的规模 更好、更快的终端用户体验 回馈数据要求高的工作负载 将计算能力用于工作:不浪费GPU/CPU资源 高性价比:具有对象存储经济性的极端NVMe性能 大幅提高数据科学和工程团队的生产力 可随处部署 云原生:跨公有和私有云运行 工作量少:只需最小的调整和维护 按需付费:只需为你使用的资源付费 软件定义:在标准硬件上获得类似于设备的体验 二、HK-Weka的功能特点 * 保护 HK-Weka并行文件系统受到N+2或N+4的全面保护,即硬盘或后端的任何2个并发故障都不会造成任何数据丢失,且HK-Weka系统能够正常运行以提供持续的服务。上述是通过复杂的分布式保护方案实现的,该方案是在形成集群时确定的。数据部分的范围可以从3到16,保护方案可以是2或4,即对于大型后端主机集群,集群可以是3 + 2,10 + 2,甚至16 + 4。 *分布式网络方案 HK-Weka系统实现了任意对任意的保护方案,确保在后端发生故障时,使用其他后端可以执行重建过程,获取驻留在故障后端上的数据,并使用集群中其他后端的冗余重新创建。因此,冗余不是跨后端组,而是通过在整个后端集群中相互保护数据集组来实现的。例如,一个后端在100个后端的集群中发生故障,其他99个后端将参与重建过程,同时读取和写入。这意味着HK-Weka系统重建过程非常快,这与传统的存储架构不同。在传统的存储架构中,正常运行的后端只是参与重建过程的后端或驱动器的一小部分。对于HK-Weka系统而言,群集越大,重建过程就越快。 *将故障组件替换为功能组件 热备盘(Hot Spare)是在HK-Weka系统集群中配置的,它会在整个集群重建后恢复完全冗余所需的额外容量,这与将特定物理组件专用于热备盘的传统方法不同。因此,一个包含100个后端的集群将配置足够的容量来重建数据,即使在发生两次故障后也可以恢复到完全冗余,并且还有可能承受另外两次故障,此故障组件更换策略不会影响系统的正常运行。系统发生故障后,只需将故障组件替换为有效组件即可重新创建数据。在HK-Weka系统中,数据立即被重新创建,将故障组件替换为功能组件作为后台进程。 *故障域 故障域是一组后端,它们可能由于单个根本原因而失败。例如,如果机架中的所有服务器都通过单个电源电路供电,或者所有服务器都通过单个TOR交换机连接,则可以将其视为故障域。考虑一组10个这样的机架设置,包含50个HK-Weka后端的集群(每个机架中有5个后端)。在HK-Weka集群形成过程中,可以配置6+2保护,通过在机架上形成保护条使HK-Weka系统知道这些可能存在的故障域。通过这种方式,6 + 2条带将分布在不同的机架上,确保系统在机架完全故障的情况下保持运行且不会丢失数据。 *按优先级排列数据重建过程 发生故障时,数据重建过程首先读取发生故障的所有条带以重建数据,然后返回到完全保护。如果发生第二次故障,可能会有三种类型的条带: 不受任何一个故障组件影响的条带:无需执行任何操作 仅受其中一个故障组件影响的条带 受两个故障组件影响的条带 当然,根据多重性规则,受两个故障组件影响的条带数量远小于受单个故障组件影响的条带数量。但在尚未重建受两个故障组件影响条带的情况下,第三个组件故障将使HK-Weka系统面临数据丢失。 为了降低这种风险,HK-Weka系统优先考虑重建过程:首先,从受两个故障组件影响的条带开始重建。由于此类条带的数量要少得多,因此该重建过程可以非常快速地执行,只需几分钟或更短的时间。接着,HK-Weka系统将返回到仅受一个故障组件影响的条带的重建,此时可以承受另一个并发故障且不会丢失任何数据。这种按优先级划分的重建过程方法可确保数据几乎永远不会丢失,并且服务和数据始终可用。 *无缝分配、最佳容量和最佳性能 安装在应用服务器上的每个HK-Weka系统客户端可以直接访问存储数据的后端主机,然后转发访问请求。HK-Weka客户端包括一个完全同步的映射用以说明哪些后端存储哪种类型的数据,并表示所有客户端和后端都知道的联合配置。 当 HK-Weka客户端尝试访问某个文件或文件中的偏移量时,加密哈希函数会指示该后端所需的文件或偏移量。当执行集群扩展或发生组件故障时,后端的职责和功能会立即在各个组件之间重新分配。这是允许HK-Weka线性系统提高性能的基本机制,也是线性同步缩放大小与缩放性能的关键。例如,如果添加后端以使集群的大小增加一倍,则文件系统的不同部分将重新分发到新的后端,从而立即提供两倍性能。 此外,如果一个集群只是适度增长,比如从100个后端增加到110个后端,则没有必要重新分发所有数据,只有10%的现有数据将被复制到新的后端,以便平等地重新分配所有后端上的数据。这种数据平衡(扩展所有后端在所有读取操作中的参与度)对于扩展性能非常重要,可以确保没有空闲或过载后端,并且集群中的每个后端都存储相同数量的数据。 所有这些完全无缝操作的持续时间取决于根后端的容量和网络带宽。HK-Weka的无缝操作使得正在进行的操作不受影响,并且随着数据的重新分发还可以提高性能,完成重新分发过后可提供最佳容量和最佳性能。 *数据缩减 HK-Weka系统增强的数据缩减功能可保持卓越的性能,能够显著减少各种工作负载。在HK-Weka并行文件系统中,可以寻找并减少彼此相似的数据块以单独存储数据块之间的差异,而传统数据缩减技术则需要数据块100%相似。上述操作可以按文件系统启用数据缩减,数据压缩率将取决于工作负载,无论是基于文本的数据、大规模非结构化数据集、日志分析、数据库、代码存储库和传感器数据等都可以压缩的非常出色。HK-Weka系统还提供了一个数据缩减估计工具(DRET),该工具可以在现有文件系统上运行,以计算数据集的缩减率。 三、HK-Weka的运行方式 要在生产环境中成功部署AI项目,企业的基础架构必须能够快速处理非常大的数据集,并能够从各种来源中摄取结构化和非结构化数据。传统的高性能处理存储架构不断地将数据从一个存储系统移动到另一个存储系统(用于归档数据的对象存储、用于持久存储的NAS、用于快速存储的并行文件系统)。随着数据传输时间的延长,不仅增加了存储架构复杂性,还减慢了运行结果。对HK-Weka系统而言,它重新构建了的现代AI工作流: * 设置和管理简单 * 云原生 :在本地、云端和平台之间无缝运行 * 比本地存储更快 :以更短时间、最快的推理和最高清晰的图像,秒基准来加速大规模数据流水线 * 多协议支持 :支持本机 NVIDIA GPUDirect 存储、POSIX、NFS、SMB和S3对数据的访问 * 零拷贝架构 :在同一个存储后端上运行整个管道,并消除副本成本和延迟 * 零调整混合工作负载支持 :最快的文件系统之一,支持高I/O、低延迟、小文件、混合工作负载和数据可移植性 * 完全软件定义 :既可以在硬件上运行,也可以在服务器上使用 虹科云科技 ,主要分享云计算、数据库、商业智能、数据可视化、高性能计算等相关知识、产品信息、应用案例及行业信息,为学习者传输前沿知识、为技术工程师解答专业问题、为企业找到最适合的云解决方案!
  • 热度 8
    2022-9-13 09:53
    1308 次阅读|
    0 个评论
    几款常见存储系统的对比分析
    一、主流存储系统介绍 1.NetApp NetApp 系统为各种不同平台上的用户提供了对全部企业数据的无缝访问,NetApp全系列光纤网络存储系统在文件访问方面支持NFS 和CIFS,在块存储访问方面支持FCP 和iSCSI。 2.Lsilon Isilon的IQ群集存储产品线,满足从最高性能的第一级应用到第二级的企业数据归档、磁盘到磁盘的备份和容灾等的需要。 3.Vast Data Vast Data的通用存储技术使企业现在可以将全闪存性能与存档经济性和规模相结合,从而使关键任务和数据密集型企业生产环境能够整合其工作流程。 4.DDN lustre DDN lustre是一种集群存储体系结构,其核心组件就是Lustre文件系统。该文件系统可在Linux操作系统上运行,并提供了符合POSIX标准的UNIX文件系统接口。 5.WEKA HK-WEKA是具有史诗般的性能的人工智能数据平台,提供现代企业 AI 工作负载所需的性能、可扩展性和可靠性。其WekaFS是现代工作负荷的现代存储系统,它的架构和性能旨在最大限度地提高您在云、企业内部或混合部署中对GPU的使用,提供数据管理功能,使您对EPOCH的洞察力时间加快80倍之多。 二、简单性、速度和规模的比较 三、标准/能力的比较 四、总结 从上述简单性、速度、规模及标准的比较来看,WEKA的WekaFS现代存储系统比NetApp、Lsilon , Vast Data, DDN lustre的性能都要更好些。 今天的工作负载需要一类新的存储,以提供获得或保持组织的竞争优势所需的性能、可管理性和可扩展性。HK-WEKA数据平台是为数据密集型现代工作负载设计和优化的。随着人工智能、机器学习和深度学习的性能需求加剧,它被理想地设计为将存储性能和数据可用性提升到新的水平。它的架构和性能旨在最大限度地提高云、企业内部或混合部署中对GPU的使用,提供数据管理功能,可以将EPOCH的洞察力时间加快80倍之多。 虹科云科技 ,主要分享云计算、数据库、商业智能、数据可视化、高性能计算等相关知识、产品信息、应用案例及行业信息,为学习者传输前沿知识、为技术工程师解答专业问题、为企业找到最适合的云解决方案!
  • 热度 9
    2022-9-2 11:59
    1190 次阅读|
    0 个评论
    如何让GPU加速20倍?AI数据平台是关键!
    导语:在过去的十年里,人工智能的大部分重点都放在了GPU的处理上,这是理所当然的,因为所有的进步都在GPU。但GPU变得如此之快,以至于输入到其中的数据已成为整体AI训练性能的主要瓶颈。因此, 快速、高效的数据管道已经成为用GPU加速深度神经网络(DNN)训练的关键 。 一、GPU数据匮乏 Google、Microsoft以及世界各地其他组织最近的研究表明,GPU花费了高达70%的AI训练时间来等待数据。看看他们的数据管道,这应该不足为奇。下图显示了典型的深度学习数据管道,NVIDIA称这是他们及其客户常用的。 如上图所示,在每个训练Epoch开始时,保存在大容量对象存储上的训练数据通常被移动到Lustre存储系统层,然后再次移动到GPU本地存储,用作GPU计算的暂存空间。每个“跃点”都会引入数据复制时间延迟和管理干预,从而大大减慢每个训练时期。 宝贵的GPU处理资源在等待数据时一直处于空闲状态,并且不必要地延长了重要的训练时间 。 二、HK-WEKA有更好的解决方法:AI数据平台 深度学习模型训练的主要设计目标,也是HK-WEKA人工智能数据平台的设计目标,即是通 过在存储学习数据的HK-WEKA文件系统中以最低的延迟提供最高的吞吐量,使进行训练处理的GPU持续饱和 。深度学习模型能够学习的数据越多,它就能越快地收敛于一个解决方案,其准确性也就越高。 HK-WEKA将典型的GPU匮乏的“multi-hop”AI数据管道折叠成一个单一的、零拷贝的高性能AI数据平台 —其中大容量对象存储与高速HK-WEKA存储“融合”在一起,共享同一命名空间,并由GPU通过NVIDIA GPUDirect Storage协议直接访问,消除了所有瓶颈,如下图所示。将用于人工智能的HK-WEKA数据平台纳入深度学习数据管道, 可使数据传输率达到饱和,并消除存储仓之间浪费的数据复制和传输时间,使每天可分析的训练数据集数量呈几何级数增加 。 通过HK-WEKA零拷贝架构,数据只需写入一次,就可以被深度学习数据流中的所有资源透明地访问。如上图所示,HK-WEKA人工智能数据平台支持英伟达的GPUDirect存储协议,该协议绕过了GPU服务器的CPU和内存,使GPU能够直接与HK-WEKA存储进行通信,将吞吐量加速到尽可能快的性能。 1.专为最低延迟深度学习数据管道设计的架构 深度学习人工智能工作流程包括跨训练数据集的密集随机读取,低延迟可以加速训练和推理性能。 *HK-WEKA的设计是为了尽可能实现 最低的延迟和最高的性能 。 *HK-WEKA的小型4K块大小与NVMe SSD介质块大小相匹配,以 实现最佳性能和效率 。 *HK-WEKA将 元数据处理和直接数据访问均匀地分布在所有存储服务器上(没有后端网络 ),进一步降低了延迟,提高了性能。 *更重要的是,HK-WEKA设计了 低延迟的性能优化的网络 。 *HK-WEKA不使用标准的TCP/IP服务,而是 使用UDP上的数据平面开发工具包(DPDK)来加速数据包处理工作负载 ,没有任何上下文切换和零拷贝访问,这是一个特制的基础设施。 *HK-WEKA绕过了标准的网络内核栈, 消除了网络操作对内核资源的消耗 。 2.无缝低延迟命名空间扩展到对象存储 HK-WEKA数据平台的集成对象存储提供经济、大容量和快速访问,以便在深度学习训练过程中存储和保护大量训练集。 *用于AI的HK-WEKA数据平台包括 无缝扩展其命名空间到对象存储和从对象存储扩展的能力 . *所有数据都位于一个HK-WEKA命名空间中 ,所有元数据都位于闪存层上,以便快速、轻松地访问和管理 。 *为了减少延迟, 大文件被分割成小对象,小文件被打包成更大的对象, 以最大限度地提高并行性能访问和空间效率。 3.通过切换到HK-WEKA的AI数据平台,Epoch Time可减少20倍 为了说明如何显著减少训练周期时间, 计算机视觉深度神经网络最大、知识最渊博的用户之一最近从传统的多副本数据管道转换到HK-WEKA的零拷贝数据管道 ,在传统的多副本数据管道中,每个训练周期需要80小时。而现在, 他们将Epoch Time缩短了20倍至4小时,如下图所示。这使他们能够在12天内完成旧基础设施需要一年才能完成的工作,从而大大加快了最终产品的上市速度 。 关于虹科云科技 虹科云科技,主要分享云计算、数据库、商业智能、数据可视化、高性能计算等相关知识、产品信息、应用案例及行业信息,为学习者传输前沿知识、为技术工程师解答专业问题、为企业找到最适合的云解决方案!
相关资源