随着5G和云的大规模商用,越来越多的IT攻城狮会接触到两种不同的存储类型:集中式的存储和分布式的存储。
在很多人的印象中,数据都应该是集中保存,很多大型企业也是这么实现,因此集中式的存储是最常见的。而在过去分布式存储主要的作用都是用来备份,一旦集中式存储故障了,分布式的存储可以顶上。所以很多IT从业者对分布式存储的印象就是重要性较低,价格要便宜,甚至可以通过软件控制的方式简单实现。举一个例子,过去很多行业从业人员认为集中式存储好比电脑硬盘,什么关键数据就往里面存好了,分布式存储好比U盘或者移动硬盘,用来备份数据的,或者放一些不重要的东西。
这是过去的理念,但是现在,实际上分布式存储的地位已经发生了比较大的变化。当然,主要的原因是因为云也发生了变化,很多企业的云由过去的集中的数据中心变成了多云结构,甚至5G的边缘云也开始逐步冒头,和云密切相关的存储,同样也发生了翻天覆地变化。
当然首先要说的是,存储和云密切相关,但是又不完全等同于云。可以认为,存储是云的数据底座,云计算所需的数据都放在存储设备中,因此云的离散化的趋势,自然会带来存储的离散化。云和存储是配合关系,是数据的处理和保存的关系,云提供服务,而存储保存数据。我们可以简单的把云等同于大规模的服务器集群,而在很多数据中心内,存储设备和服务器实际上是独立的,就像Openstack定义的那样。
因此云和存储可以是N:M的关系,多云可以共享存储,单云也可以使用分布式的存储。
集中式的存储依然是目前不可替代的,集中式的存储一般用于企业的生产、办公等交互频繁的关键业务。因为集中存储效率高,速度快,这点是分布式存储不具备的优势,由于数据分布在不同的区域保存,应用存取自然会损耗一定的存取时延。
分布式的存储更多的用于海量的非结构化数据存储场景。因为未来是智能时代,也是大数据时代,海量的数据中并不是所有的数据都需要频繁的交互和实时高效的存取,所以这种场景更适合用分布式存储。因此集中和分布式的存储按照企业的业务需求,实际上在应用场景做了区分。
那么这是不是意味着分布式存储的价值就比较低呢?当然不是。过去分布式的存储主要用于数据备份,但是大数据时代,视频、照片等非结构化数据(可以认为是大小格式不统一的数据)越来越多,这些数据交互的实时性没那么高但是数据量非常大,因此完全可以用分布式存储代替。
分布式存储的特点之一就是容量巨大而且支持灵活的弹性扩容,因此对于存储视频、图片数据特别合适。而且还有一个原因,未来有些数据的使用需要尽量靠近边缘,例如人脸识别这种应用,这个时候分布式存储可以让数据尽可能的从边缘数据中心获取,当然更合适。
因为商用场景在变,分布式存储也不是最初的软件+后台服务器这种方式,分布式存储逐渐会涉及一些高价值的业务。因此软硬一体的分布式存储的效率会更加高。中国移动2019~2020年分布式块存储集采为例,3个标段中2个为软硬一体采购,占比超过了90%,所以分布式存储如果涉及到一些高价值的应用,应该已经逐步放弃了软件控制服务器的模式,而是采用了软硬一体的结构。
正因为软硬一体的分布式存储成为了趋势,因此分布式存储也不再是传统的开源架构作为主流,过去分布式存储分为开源和不开源两大流派,而现在大型存储企业的自研软件逐渐被企业认可。还有一个重要的原因是,最近一年发生全球科技频繁发生的科技战,让我国开源软件是否安全蒙上了阴影。而且对于金融、政府等行业,数据的安全至关重要,人尽可知导致开源的软件往往带来的就是不安全风险,因此越来越多的企业会选择非开源的分布式存储。
因此,在未来,分布式存储和集中式存储会是一个场景的互补关系,但是随着大数据在全行业的广泛使用,分布式存储会越来越广泛,应用场景会越来越多。决定到底是使用分布式还是集中式存储的,主要是应用场景所需的数据交换的频度,以及时延等业务要求。