高德纳公司发布的新兴技术成熟度曲线,其中有一个有趣的现象值得注意:大数据已经从“期望膨胀期的顶峰”开始回落,物联网(LoT)恰好达到峰值,而数据科学正处于上升阶段。在直觉上这样是正确的。

首先,尽管大数据(需要利用特殊技术来存储、搜索和分析的海量信息)领域依然繁荣并属于热门话题,但它已不再是数据领域的新成员了。
其次,所有人都认为物联网产生的数据集将比当今的大数据集合更令人咋舌。
第三,收集数据是一种意义重大的挑战,而分析数据以及从数据中提取知识则是另外一回事,属于数据科学的范畴。

那么我们在这里讨论的信息规模有多大?不同的估计出入很大,不过大数据狂热者们在谈到存储时有时会以波字节(brontobytes)为单位,这个单位的英文名称似乎是源自雷龙(brontosaurus)这个地球上曾经最大的物种。听上去,我们处理的数据规模非常庞大,那么1波字节能存储多少数据呢?我可以告诉你,是1000尧字节(yottabytes),但这似乎也没说明白。还是想想1太字节吧,目前1太字节代表一般硬盘驱动器的容量。1000万亿太字节才相当于1波字节。不过还要声明一下,大数据专家常常讨论的还有一个更大的单位:乔字节(geopbyte),相当于1000波字节。无论用什么单位表示,我们都是在处理海量字节(hellabytes),即数量极其庞大的数据。

即使是讨论拍字节(1拍字节=1000太字节)数据集和数据湖(data lake,处于存储状态的可存取的原始数据),也是专业人员的任务,所以不仅与大数据相关的工作有很多,现在这些职位头衔也有一些讨喜的分类:公司正在寻找数据架构师(data architects,构建数据模型的专家)、管理数据源的数据保管人(datacustodians)和数据管理员(data stewards)、数据可视化师(data visualizers,能将数据转为可视化形式的人员)、通过分析公司数据来改变公司经营方式的数据转换专员(data change agents)和数据探测师(data explorers),甚至是数据压裂者(data frackers,运用非常手段或隐性措施提取或获取数据的人员)。

但在“利用海量数据集”方面走在前面的不仅是数据专家。比起其他行业,最明显的就是新闻业,该领域出现了一种新型新闻报道方式,即利用统计、编程及其他数字数据和工具来制作或形成新闻报道。内特•希尔(Nate Silver)的538网站就是这种数据新闻(data journalism)或称数据驱动的新闻(data-drivenjournalism)的一个例子。538网站掀起了广受欢迎的精确新闻(precision journalism)和计算机辅助报道(computer-assistedreporting,CAR)运动。

无论是专业人士还是业余爱好者,每个人都不能再奢望着只处理“大”数据了。如今还有厚数据(thickdata,结合了定量和定性分析的数据)、长数据(long data,将时间回溯至几百年或几千年前的数据)、热数据(hot data,不断使用的数据,意味着必须能够轻易地迅速获取)和冷数据(colddata,相对较少使用的数据,因此可以不易随需随取)。

20世纪80年代,我们需要文化素养,如今我们则可能需要大数据素养(big-data literacy)。我们不一定要精通大型数据集的分析,但要意识到我们的日常行为——我们的小数据(small data)——如何促成了不同的大数据集合,以及那可能对我们的隐私和安全产生何种影响。让我们学会做自己数据的保管人吧。

作者:Paul McFedries
IEEE电气电子工程师学会