tag 标签: infosphere

相关博文
  • 热度 16
    2015-9-16 09:53
    1118 次阅读|
    0 个评论
    当前海量数据实时处理面临挑战 车联网是典型的大数据应用场景。以中等规模(百万辆车辆并行接入)的车联网系统为例,假设平均每辆车每秒通过无线通信实时上传的信号是200个,工作制式是7*13小时,3备份存储,则服务器所需提供的存储大小在一年内就轻松超过10PB。面对如此海量数据应用场合,传统的数据处理方式是“先存储后处理”,但是往往很多数据有实时处理的需求,比如实时监控,故障监测等,面对如此海量数据并行接入的情况,“传统”方式已无法满足海量数据实时处理的需求,流式计算应运而生。 流式计算 在“传统的”处理中,可以对历史数据运行分析查询:举例而言,针对车载终端实时传输的全球定位系统 (GPS) 位置的数据集进行处理,计算某车辆一个月的里程。使用流计算,可以执行一种类似持续计算跑步距离的“持续查询”的过程,因为来自 GPS 数据的位置信息不断在刷新。而在“传统的”数据处理方式而言,GPS实时数据过来只能先存入数据库,然后等该月行程完成后,再对数据库历史数据进行查询计算得到当月里程。由于数据量比较大,这种类似离线分析的数据处理方式响应会非常慢,无法满足某些实时数据应用的场合。使用流式计算的好处是数据实时被处理,一方面可以满足海量数据实时分析的需求,另一方面针对海量价值比较低的数据进行预处理再存储,可以有效节省存储空间,有利于提高后续对数据处理的效率。流计算如下图所示:   IBM InfoSphere Streams为您提供海量数据实时分析平台 IBM InfoSphere Streams是业内领先的流式计算软件,专门针对大数据的特性定制,完全能满足海量数据高并发,结构/半结构/非结构多形式数据场合实时数据处理需求。此外,Streams也可以作为ETL工具对原有数据库的历史数据进行处理,相比其它流式数据处理解决方案,Streams的技术优势如下: l  Streams是一种处理流数据的低延迟平台 ü  能提供毫秒级,甚至微秒级端到端的延迟 l  Streams是一个可高度扩展的,用于实时分析的高性能平台 ü  通过横向增加硬件可获得近线性的处理能力扩展 ü  能支持高达125个节点的集群扩展 l  Streams是一个灵活的,动态的平台 ü  Streams应用灵活部署,支持动态部署新的分析应用 ü  支持机器学习,可以将现有的预测模型标记语言 (PMML) 模型重用到流数据上,对预测模型进行学习 l  提供丰富的工具箱,支持过滤、筛选、清洗等基本功能,支持用户Java自定义工具箱 l  支持TCP/UDP/file等数据接口,支持DB2/Informix/solidDB/Oracle/SQL Server/MySQL/Netezza等数据库 Streams研发项目是由美国政府和 IBM 于 2003 年协作启动,已由许多组织实施,在政府、电信、金融市场、能源、e-Science 和医疗等行业构建各种各样的应用。 IBM InfoSphere Streams 产品组件 图 2:InfoSphere Streams 组件 l  Streams Studio:一个基于 Eclipse 3.6.2 的集成开发环境 (IDE),用于迅速开发、测试和调试流应用和 Streams Live Graph,以直观地显示在运行时集群上执行的作业和作业组件。 l  Streams 运行环境:一个服务器或服务器集群,集群大小没有限制。高可用性功能包括检测失败的流程元素、重新查找、重新启动和可选的重新存储状态的能力。 l  工具包、适配器和示例: ü  包含关系、文件、通信和实用程序操作符的标准工具包 ü  包含 HTTP、HTTPS、FTP、FTPS、RSS 和文件源操作符的 Internet 工具包 ü  包含 ODBC 驱动程序和用于流扩充的高速solidDB驱动程序的数据库工具包 ü  用于预测模型标记语言 (PMML) 评分的挖掘工具包 ü  包含 WebSphere Front Office v3.0.2.1、Financial Information eXchange (FIX)、QuantLib、Library 函数的财务工具包,这些函数计算普通股期权衍生品值,比如 delta、theta、rho、vega 等 ü  超过 50 个示例应用和流处理语言工件示例       恒润科技:http://www.hirain.com 电话:64840808-6006