首页 >>新闻中心

数据湖成熟度指数,你的公司处于哪个阶段? 2018-04-11

1.    数据湖成熟度指数,你的公司处于哪个阶段?

我们对数据湖这个概念很感兴趣!”一位客户最近和我说。数据湖能够帮助企业更有效地利用数据和分析来推动他们的商业模式。这正是我们在谈论大数据业务模型成熟度指数时提出的建议,并帮助企业利用预测性,规定性和认知(自学)分析的能力来提升业务模型成熟度指数。

blob.png

把数据湖看成一项技术,这其实是客户只知其一的地方。事实上,将数据库视为一个数据仓库会阻碍组织利用数据和分析实现业务价值的能力,这阻碍了通过优化关键运营流程,减少合规性和安全风险,发现新的收入机会,并将其“货币化”的能力。

根据我在构建数据湖方面的经验,我将分享数据湖业务模型成熟度指数。数据湖业务模型成熟度指数展示了今天你在数据湖阶段所处的位置,而且还提供了从现在到明天的路线图。

l  数据湖1.0:一个技术实践

数据湖1.0是组织熟悉Hadoop,HDFS,Hive和HBase等大数据技术的过程。通常,这些早期数据湖目标是尽可能减少数据量,以降低执行分析总体成本。但是,在构建数据湖1.0时,组织正在发生一些重大的错误;,最终阻碍他们创建可扩展的弹性数据平台。

Ø  太多的Hadoop。第一种错误是“太多Hadoop”,许多企业的Hadoop部署模型从第一个部门开始,然后第二个部门又进行他们自己的Hadoop,第三个部门也实现他们自己的Hadoop并进行扩展等等。这造成了数据的孤岛,打破了大数据分析的目的。Hadoop部署的分散,使得高管们无法跨所有部门执行分析。

Ø  治理太多。下一个错误模式是“治理太多”。一些组织通过构建一个数据湖来治理的概念太过分了,这个数据湖对于谁可以查看,访问和处理数据有太多的限制,没有人能够进入数据湖。

Ø  没有足够的治理。太多治理的反面是“治理不足”,组织缺乏数据管理,工具和策略来管理访问湖中的数据。可能发生的情况是数据湖中有大量数据,但没有人真正知道它是什么,质量低,最终业务不能信任数据。

Ø  无弹性体系结构。最常见的错误模式是“非弹性”架构。这种模式的出现是因为组织一次一个服务器缓慢地增长其大数据环境,最初通常会购买更便宜的服务器,但最终会增加非常昂贵的服务器以满足业务需求。随着时间的推移,数据存储的增长将远远超出计算需求的增长速度。而且,保持如此大的物理环境将变得非常麻烦。

Ø  宠物项目。最后一个错误模式是“宠物项目”,IT部门会认为“如果我们建立一个数据湖,业务就会来使用它”。这样的结果是数据湖只会成为数据中心角落的一个部署,不会被所有人使用。

l  数据湖2.0:创建一个弹性数据平台

数据湖2.0专注于构建一个强调可扩展技术和数据管理服务的弹性数据平台,专注于提供财务价值和业务相关性的业务用例。

blob.png

这个弹性数据平台解决了数据湖1.0期间遇到的错误模式。

Ø  避免“太多Hadoop”的方法是为企业创建单一数据存储库。这将减少数据重复,并防止孤岛。这里采用的关键在于组织需要停止对谁拥有数据的思考,而是需要了解数据是由组织拥有的,组织必须成为数据定义规则和策略的管理者关于谁可以看到并访问该日期。制定治理计划是实现这一目标的关键。

Ø  恰到好处的治理。解决太多治理问题的关键在于,在恰当的一套规则和政策的基础上,对数据进行匿名化和标记化,以及围绕谁可以访问什么数据的策略来实施“恰到好处的治理”。这包括让数据管理员定义数据访问的规则和策略,并为用户创建分析沙盒。另外,解决“治理不足”的关键是要有足够的治理,并分阶段构建数据湖,只有在存在将元数据与数据相关联的流程和工具之后,才会向其添加数据。

Ø  创建弹性数据平台。与其购买昂贵的服务器和大量的存储空间,最好的做法是将计算和存储层分离。此外,虚拟化计算层将使管理更容易,但更重要的是,可以为业务提供有弹性的云平台。

Ø  提供商业价值。IT应该建立正确的架构,是基于业务需求的。企业用户通常不会关心IT使用案例,因为他们很难与日常业务所面临的问题联系起来。答案是,IT部门需要与业务伙伴进行合作,以确定业务需要IT解决方案的领域,并根据这些需求构建解决方案。

l  数据湖3.0:协同价值创造平台

数据湖3.0是企业将数据和分析的独特特性完全融入到数字资产中,资产永不磨损,永不枯竭,并且可以以接近零的边际成本在无限数量的用例中重复使用。数据湖3.0将创建“协作价值创造平台”,用于捕获,重复使用和优化组织数据和分析资产,并推动业务部门,IT部门和数据科学组织之间密切合作的“货币化”工作,如图

blob.png

l  数据湖业务模型成熟度指数

在应用分析(如深度学习,机器学习,强化学习和人工智能)来揭示客户,产品,服务,运营和市场洞察力之前,数据的价值是有限的。如果这些洞察被用于帮助组织优化关键运营流程,降低合规性和安全风险,发现新的收入机会以及创建更引人注目的客户参与,那么这些洞察力才是有价值的。数据湖3.0是组织的数据和分析货币化平台,如果企业希望从其数据湖中获得有意义的业务价值,那么组织就需要大力推进数据湖业务模型成熟度指数。否则,这又是一个技术实践。