tag 标签: 大数据分析

相关帖子
相关博文
  • 热度 4
    2018-11-2 21:23
    2262 次阅读|
    0 个评论
    数据会传到企业之后,有一些企业采用了将数据保存在公司内网,软硬防火墙、权限、口令、加密各种手段全上,这是很稳妥的办法。若果要使用数据库,那就另开一个存储区域,设置过滤条件,建立数据库镜像,防止直接操作不当崩溃。 本文我们要讨论的不是数据库,而是一个问题。 大数据分析。 这个名字不是随便叫的,就好像有个网站不能称之为云一个道理。直接举个例子来说明吧。 某个现场不大, 100多个信息点,每隔十秒回传一条消息,一分钟6条,一个小时6*60条,一天6*60*24条,合计14400条信息,每条信息占据2K字节,则占据28800000字节,不到3M,也就是一首歌的大小。两天,28800条数据。 工业化的许多数据,如温度、压力、流量、 PH值等,往往变化是比较缓慢的。从数据库中读出数据填充到EXCEL表里,看两眼会觉得这是粘贴考虑了数万行,发觉不出变化来,以小的时间尺度去查看变化曲线,就是一条直线。 首先根据预定义的通信协议,将数据字段填充到监控变量,同时以时间变量为基准,建立起数据序列。 对于数据进行初步的筛选和预处理:判断数据的有效性,那些明显一场的数据如超出极大值和极小值的数据,不知所云的数据,这往往是由于现场传感器故障、通信干扰等原因造成的,需要剔除或根据上下时间段补值;长时间无变化的数据删减等等。 经过预处理的数据后,数据条数从 2万多条锐减至只有不足百条。 根据业务专家的一件,对于这十几条数据做了简单的诸如相关性的计算之后,得出了几条结论。业务专家非常惊讶,仅仅这几十条数据得出的结论,清晰的反映了该单元的最优化工作条件,和实验室条件下的结论如出一辙。而根据此结论编写的操作指导书和运维报告,另用户大为满意,专门增加了预算。 上述过程,是一个浓缩了的大数据分析的过程。通过该过程,我想说明几个结论:其一,数据中蕴含着财富,价值无法估量;其二,企业,要高度重视这些数据的价值,这是企业提高生产率的核心价值所在;其三,企业,要做好数据的保密;其四,本文使用简短的篇幅举例,是为了说明如下结论: 在数据时代,对于企业的挑战不仅仅来自同维度的同行,更有可能来自更高维度的其它。 所以,有一个问题,数据就是金钱。我们把金钱存到银行去,银行用这些钱去放贷,去投资,进而获利,抽出一部分返给储户作为利息。企业将数据存储到云端,怎么还收费吗,以后会倒过来吗?
  • 热度 29
    2015-10-20 10:42
    1128 次阅读|
    0 个评论
    据外媒报道,伴随着互联网的不断普及以及移动设备的不断流行,现在,数据及其设备中心要比过去任何一个时代都显得重要。这种被叫做大数据分析的处理过程大部分情况下还是需要借助人类的直觉来完成。任何一位人工智能(AI)科学家都认为,直觉是人类思维过程中最难复制的部分之一。然而就在近日,来自MIT的科研人员可能在这一领域取得了突破。 据悉,由他们开发出的数据科学机器(Data Science Machine)能够像人类一样执行数据分析甚至更优秀。 数据科学机器专门为大数据分析设计打造。为了测试这套系统的能力,科研人员让其参加了3项数据科学竞赛。在其中一场竞赛中,参赛队伍总数有906支,数据科学机器最终的表现排在第614名。在另外两场竞赛中,这套AI分别与人类并列第94名和第96名。虽然在第三场竞赛中它的正确率只有87%,但它花费的时间却远远少于人类--其最多只用了12个小时,而人类却用了好几个月的时间。 Max Kanter是为打造数据科学机器提供基础的论文的作者,他和他的论文导师Kalyan Veeramachaneni用了数套技术赋予系统类似于直觉的能力。例如,他们在数据库中使用了结构关系作为提示。由于现在所有大型数据库都存有关联,所以Kanter他们的部署工作也就容易了许多。 担心这样的技术会让人类遭遇机器人革命?至少目前看起来不会,获悉,数据科学机器目前只被运用到极为平凡的任务中。特别是,这套机器被用于帮助MIT了解学生倾向于放弃的在线课程研究上。现在,这台机器还开始试图通过分析学生签到的时间及他们在线的学习时间来了解更多。 Kantar表示,世上拥有太多太多的数据。但是,它们大部分都静静地呆在那里,没有得到使用或未获得充分使用。但数据科学机器将能帮助人们减少筛选实用数据的时间。
  • 热度 27
    2015-3-12 10:16
    1767 次阅读|
    1 个评论
    2015年两会已经正式召开,作为仅有的6名互联网代表之一的李彦宏,建议国家层面能搭一个名为“中国大脑”的项目。这个项目是要做一个关于人工智能的基础设施,把相应大规模的服务器集中建立起来,并开放给社会的各个层面,包括科研机构、民营公司或是国企、以及创业者,让大家在这个平台上尝试做各种各样的事情,也让大家有条件去做更好的语音识别、视觉识别、自然语言理解、智能机器人等等,很多的领域都可以在这个平台上做各种各样的试验、做各种各样的创新。 李彦宏两会提议建立“中国大脑”发展人工智能计划 人工智能最近几年被炒得火热,但对于普通用户来说,可能还没有太大感知。目前如语音识别、指纹识别、虹膜识别等技术已经得到了比较成熟的应用。而大数据分析技术、自然语言处理、智能信息检索技术、计算机视觉等则是百度重点研究的几个领域,这些技术已经在世界杯预测、图片搜索等应用上逐渐展现出其相应的价值。这次李彦宏提出的“中国大脑”也是建立在“百度大脑”基础上的,这可以说百度人工智能研究的基础所在,所有的技术创新基本都是围绕这个大脑而产生的。同时,百度现在也在做一些比较前瞻性的、实验性的工作,比如说无人驾驶汽车,这是基于计算机视觉的研究,如果能搞清楚周围有什么障碍、前面有没有车、有没有红绿灯、有没有人,无人驾驶的汽车自然能够跑起来了。如果百度把这个技术做出来之后,跟汽车厂商进行合作,一起推出相应的产品,将对行业产生巨大的影响。除了无人驾驶汽车,还有自动翻译,这项技术听起来并不是那么难,但实际上却是一个很难的东西,做这个事情对自然语言处理方面的技术要求是非常高的。现在的百度翻译以及下一代APP,都是在好几十个语种相互之间进行翻译。可是在真正的生活中,比如你到国外去旅行,想和大街上的当地人去对话的时候,你拿出一个百度翻译来,还是无法进行沟通,还是有很多障碍的。要真正产生这种比较自然的、能够完全无障碍的跨语言翻译,还是一件挺长远的事情。 而相比这些前瞻性的技术,节前百度刚刚发布的百度股市通APP算是已经比较成型的一款产品,这是首款基于大数据提供智能选股服务的股票软件。据悉,百度股市通得益于百度的大数据引擎和人工智能的技术积累,实现了信息搜集方式和大数据应用的创新突破。产品聚合了百度每天数亿量级的政经类搜索数据和数百万新闻资讯信息,并创建了一套基于中国股市的“知识图谱”,通过专业的数据挖掘和分析技术,将每天产生的新闻信息、搜索数据等与股票建立起相应的关系,从而实现通过各种信息的热度变化来实时分析股票市场板块、个股的异动。 知识图谱技术核心是自然语言处理和深度学习技术的数据挖掘,这是百度擅长的。海量信息关联性靠人工来梳理不现实,耗时耗力无法满足实时性需求,而且基于深度学习技术,百度股市知识图谱还可以实时迭代,模型本身也在不断更新。这些都是百度人工智能的创新应用。 人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。目前该领域我国和美国等西方国家的相比还有差距,正如李彦宏提案中讲到的,我国政府在创新方面一直是很重视的,但还是一直处在摸索道路的阶段创新不该由政府来主导,而应该是由政府来带动,政府需要想办法刺激民间的创新,像“中国大脑”这样的项目,就是希望能够用国家的力量去做一个大的项目,从而带动国家整体的创新。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,假如真能如李彦宏的提案建立一个“中国大脑”的项目,可以设想,未来人工智能的研究成果,将可以更快更好地给我们带来翻天覆地的巨变。
相关资源