IBM InfoSphere大数据分析平台

IBM的InfoSphere大数据分析平台

基于Hadoop的BigInsights

IBM 对 Hadoop 的研究开始于 2~3 年前。截止到目前,研究成果涉及作业调度、查询语言等多个方面。2011年5月,IBM正式推出InfoSphere大数据分析平台。“这也是目前业界唯一的专门针对大数据分析的平台产品。”卢伟权说。目前业内主流的做法是在已有产品中嵌入一些大数据功能。

InfoSphere大数据分析平台包括 BigInsights和Streams,二者互补,Biglnsights对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

BigInsights基于Hadoop,增加了文本分析、统计决策工具,同时在可靠性、安全性、易用性、管理性方面提供了工具,并且可与DB2、Netezza等集成,这使大数据平台更适合企业级的应用。“作为一个优秀的并行计算平台,Hadoop 虽然已经被广泛验证,但是在 Hadoop 上开发 MapReduce 程序需要较长的开发周期,开发人员需要充分理解 MapReduce 计算框架和 HDFS 文件系统的原理和实现才能编写出性能较好的 MapReduce 程序。” 陈奇解释说,“此前一些基于Hadoop的大数据分析平台都是出于科研项目的需要,而今要把大数据平台变成企业级分析产品,对大数据平台的要求就更高了。光有Hadoop这个架构是远远不够的,所以IBM对基于Hadoop的BigInsights做了很多改进。”

比如,BigInsights提供了一种类似SQL的更高级的查询语言。再如,除了支持 Hadoop 的 HDFS 存储系统外,BigInsights还对 IBM 最新推出的 GPFS SNC平台进行支持,以更好地利用其强大的灾难恢复、高可靠性、高扩展性的优势。“企业级产品更重要的是没有单点故障,GPFS让整个分布式系统更可靠。”陈奇指出。

Hadoop本身不提供分析的功能,因此BigInsights平台增加了文本分析、统计分析工具。目前,丹麦能源企业维斯塔斯(Vestas)通过使用 BigInsights大数据软件分析P字节级别的天气数据,改善风力涡轮机的放置位置,从而获得最佳能量输出效果--以前需要数周方可完成的分析现在仅需不到一个小时。

Streams监控婴儿ICU感染

InfoSphere Streams是一款满足即时处理、过滤和分析流数据需要的应用程序。流数据包括传感器数据(环保以及工业生产传感器产生的数据、监控视频、GPS产生的数据等)、“数据废气”(如网络/系统/Web服务器/应用程序服务器日志文件)、高速交易数据(如金融交易和呼叫详细记录)等。

Streams最早是美国国土安全部和IBM合作的项目,国土安全部出于反恐目的,需要实时分析电话语音信息,这个项目最终发展成为一个商用的项目。

目前,安大略理工大学正在使用Streams监控新生婴儿,提前24小时预测ICU感染。“数据到来时,你只想看一眼,然后就可以让它走。”陈奇说,Streams提供了一种操作系统实现这个功能,在多台计算机之间共享一个特定程序,这样系统作为一个整体就可以在不把数据提交到硬盘的情况下生成答案。

对于企业来说,有了大数据分析平台,是否就意味着废弃此前的数据仓库呢?陈奇表示,大数据分析平台并不能取代传统的数据仓库,一方面是因为技术成熟度,比如Hadoop的技术还不够成熟,另一方面是具体的业务需求问题,所以BigInsights和Streams是数据仓库的补充,而不是代替数据仓库的产品。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2012-12-03
IBM InfoSphere大数据分析平台
IBM的InfoSphere大数据分析平台基于Hadoop的BigInsightsIBM 对 Hadoop 的研究开始于 2~3 年前。截止到目前,研究成果涉及作业调度、查

长按扫码 阅读全文