875名受访者得出6条重要结论,解析数据分析和可视化应用的现状

各行各业的企业在收集、存储和分析来自不同格式的数据。在数据竞争下,要想获得成功,利用数据进行商业决策则变成了比业务本身更重要的事情。

数据分析和可视化技术的快速发展意味着企业和个人非常希望通过正确的技术选择尽快地获得业务上的成功。

创业者们需要知道他们是否选择了正确的语言、产品、架构和数据源,而个人则需要知道他们是否正在学习正确的技能来获得更有前途的工作。那些没有选择正确的人会面临被淘汰的危险,因为他们没有充分利用实时的数据分析和可视化程序提供的洞察理解。

基于数据分析和可视化技术的迅速发展,大数据分析和可视化工具提供商Zoomdata联合横跨多领域的科技媒体公司O’Reilly Media进行了一次调查,以评估数据分析和可视化应用的现状。有875名受访者提供了他们使用这些技术的情况。在详细分析调研结果之前,我们先把主要的结论列出,以便大家阅读:

大数据分析和可视化应用在制造业、金融服务和科技/软件公司中是最成熟的。这些技术通常是企业级用户及业务分析师来使用,他们通常是依靠可视化仪表盘来获取所需的见解,以优化业务流程并更好的了解客户。关系型数据库仍然是最常见的数据源(虽然分析型数据库和Hadoop是大数据领域最常见的数据源)。企业非常需要Python、SQL和关系型数据库的能力。Kafka和Spark正在成为流数据技术(streaming data technology)的首选。360度客户洞察是最常见的使用场景。

数据分析和可视化使用概览

875个受访者来自不同的行业(如图1所示),其中超过35%来自科技/软件行业,接近10%来自金融服务,8%来自医疗健康/医疗科技领域,还有制造业、政府、零售和教育/学术这几个领域分别占约5%。

图1 受访者所在的行业及占比

从受访者的工作岗位来看,18%是是工程师/开发人员,17%是数据科学家,15%是数据分析师/业务分析师,还有13%是架构师,他们的公司规模各异。有趣的是,企业CXO们和经理的占比也非常高(14%),甚至高于IT专家(8%)。

还有一个值得关注的是,有26%的受访者是来自员工人数少于50人的企业,这也表明了小型企业是使用这些新技术和业务流程的领导者。

超过50%的受访者表示,他们使用分析来获得全方位的客户洞察,43%的受访者使用分析来优化业务流程(如图2所示)。客户和业务流程是直接影响业务的重要因素,因此这些环节也是企业需要使用数据分析和可视化工具从而通过数据来辅助决策的重要方面。

图2 数据分析和可视化工具使用的主要领域和占比

主要领域分析

在图2中,我们看到360度客户洞察是数据分析和可视化工具使用最多的领域,但是从不同的行业来看情况可能就有所不同,而且也能显示出一些趋势。

在科技/软件、金融服务和零售行业,360度客户洞察无疑是使用分析技术最主要的领域,占比在50%以上。令我们感到惊讶的是在教育/学术行业,使用分析技术最主要的领域也是360度客户洞察。毫无疑问这些行业都是客户至上的行业,只有全面的了解客户,才能给客户更好的体验,才能获得更多的收入。

医疗保健/医疗科技行业中医疗数据分析是使用分析技术的主要领域,这并不令人惊讶,因为能称作是医疗科技的医疗企业都需要分析医疗数据,否则很难做出有现实意义的成果。

业务流程优化也是一个重度使用分析技术的主要领域,在调查报告里的所有涉及到的行业,业务流程优化使用技术分析技术的占比都排在前三位,在制造业和政府行业则排名第一。优化业务流程通常会降低运营成本,并可能提高客户的满意度,因此这也是在许多行业中建立竞争优势的战略途径之一。

制造业和零售行业也把重点放在了供应链分析上。及时发现供应链环节中存在的问题,可以帮助零售商和制造企业节省换供应商的时间。一个优化的供应链结构也是一个企业的竞争优势和技术壁垒。

欺诈检测/网络安全情报是金融服务和政府行业的重要领域。欺诈检测对于任何金融服务都至关重要,离钱越近的地方越容易出现欺诈行为。检测并消除欺诈行为有助于与客户建立信任并降低运营成本。网络安全情报是众多政府机构关注的焦点,在选举和可持续运营层面,防止欺诈也至关重要。

我们还向受访者提了这样一个问题“贵公司的大数据分析处于什么阶段?是刚刚开始,还是已经应用在工作的各个方面?”,有助于我们理解各行业的采用率如何变化。令我们惊讶的是制造业行业有26%的受访者表示他们的公司在多个方面都已经使用了数据分析技术,是所有行业中最高的,而最低的是政府行业,只有7%的人认为公司在多个方面已经应用了数据分析技术。政府行业也是“我们没有使用大数据分析技术”这个选项占比最多的行业,达到33%,科技/软件行业则占比最低。

如何使用数据

在如何获取数据来源的问题中,数据仓库/数据集市是最多的回答,在零售行业最为明显。虚拟联合/糅合(Virtual federation/mashup,即时混合数据而不移入仓库)在医疗健康/医疗科技、科技/软件和政府行业应用的最多。

图3 数据来源在各行业的分布占比

关系型数据库仍然是各行业使用最多的,在医疗健康/医疗科技行业的占有率达到39%。非关系型数据库以及大数据存储的分析型数据库、Hadoop、NoSQL数据库、云数据存储、内存数据库和搜索数据库中,金融服务和政府使用分析型数据库最多,而零售和科技/软件行业使用云数据库存储最多。

Kafka和Spark是分析流数据最常用的技术,在我们的调查中,这两个技术占流数据分析的65%以上。科技/软件行业是使用Kafka的主要行业,其次是金融服务。政府中最普遍的是使用Confluence。

大数据分析的必备技术

在我们分析使用数据分析和可视化工具的技术人员的相关技能时,我们发现总体上需求最大的是Python、SQL和关系型数据库,其次是Hadoop和Java。政府行业最需要的是会Python的人才,其次是关系型数据库的人才,而医疗健康/医疗科技最需要的事SQL的人才。

大数据的价值所在

衡量大数据的价值有四个方面:准确性、实时性、多样性和数据量。准确性指的是数据接近“真相”的程度,实时性指的是数据收集和分析的速度,多样性指的是结构化和非结构化数据的多种来源和类型,数据量指的是能够收集和分析的总数据量。我们通过了解各个企业看重这四个方面的哪几个方面,来深入理解数据分析是如何影响公司业务的。

从整体来看,衡量数据的价值最重要的方面是准确性,这并不令人意外,因为没有真实的数据,那么分析结果就没有任何意义。其次重要的是多样性,这表明无论什么行业,做数据分析和可视化必须要结合多种来源和类型的数据,才能更好的提供企业所需的见解。实时性是最不重要的,这表明典型的商业数据获取是否及时并不影响分析的结果和业务的决策,这也是流数据分析相对少的原因之一。但实时性对于科技/软件和制造业来说却是最有价值的。

总之,为了更好的给企业提供商业价值,数据分析和可视化工具越来越多的应用在日常工作中,给业务分析师和管理人员提供所需的信息。这些信息通常嵌入到生产环境的应用程序或独立的BI应用中,并通过仪表盘进行操作。我们通过这个调研希望可以给企业一个直观的感受,让各个行业的从业人员都了解到大数据分析技术已经发展到什么程度以及采用度如何,在今后采用这些新技术或拓展大数据收集、存储、分析和可视化应用时,有一个参考。

(免责声明:本网站内容主要来自原创、合作媒体供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

AI优先,应用为王:2018应用型AI企业TOP50排行榜
赞助商