大数据时代CIO需考虑的关键技术因素

伴随着开源Apache Hadoop的采用,数据管理软件厂商已发生巨变。现在,基于Hadoop的基础设施的前景日趋明朗,它可以关联结构化和非结构化数据,扩展成本低廉,并能以此获得快速的市场洞察力。 Hadoop和其生态系统在弹性、安全性和易用性上会为企业提供新的能力吗?

现今CIO在利用大量和多样化的数据时,需要考虑的关键技术因素包括:

1、与其他数据库和数据管理环境共存。包括标准的关系环境(甲骨文)和分析数据仓库(Teradata)。警告:数据移动和整合是必要的,但它增加了对各种提取、转换和加载(ETL)工具的支出,也增加了运营成本。

2、存储和硬件。创新的压缩和重复数据删除技术是解决大数据问题的关键。目前在这方面已有很大的进步,我们现在看到的多层次压缩在容量方面比原始数据减少40倍。然而,重要的是考虑已压缩的数据中有多少最终需要再次膨胀,这将影响你的容量。例如,如果再次膨胀时需要增加30%的容量,那可能不值得把压缩摆在首位。

3、查询和分析。并不是所有的数据都是同等的,查询和业务分析的范围变化很大,这取决于使用情况。有合适的工作工具是必须的。在许多情况下,快速反应的SQL查询将足以生成所需要的信息。在其他情况下,深层的分析查询需要一个具有完整的操作界面和可视化功能的商业智能工具。正确部署专有技术和开源Hadoop,将帮助您的组织实现具有规模的快速分析,同时防止运营成本不断攀升。

4、规模和管理能力。由于企业面对不同的数据库和分析环境,因此向外和向上的扩展能力是非常重要的。简单的向外扩展能力是Hadoop为什么会被企业迅速采用的原因。通过低成本的服务器集群进行大规模并行处理是关键,比其他的数据管理方式需要更少的专业技能,而这直接影响您对IT资源的投资

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2012-02-12
大数据时代CIO需考虑的关键技术因素
伴随着开源Apache Hadoop的采用,数据管理软件厂商已发生巨变。现在,基于Hadoop的基础设施的前景日趋明朗,它可以关联结构化和非结构化数

长按扫码 阅读全文