首页 >>新闻中心

数据仓库---建设过程 2020-04-15

数据仓库---建设过程

一、      数据仓库和数据平台的区别

当你开始建设数据仓库之前,需要明白数据仓库和数据平台是两个不同的概念,不要把搭建一套 Hadoop + Hive 的平台叫数据仓库,这是数据平台的范畴。

我们常说的数据仓库不仅仅是指数据接入、数据存储和数据计算,它也要包括数据治理、数据建模和数据挖掘。比如元数据管理、维度建模和 OLAP 分析,这些都是我们在建设数据仓库时候要考虑的内容。

二、      规划数据仓库

数据仓库是公司数据体系的核心模块,数据仓库可以做的不好,但是不能不做。

因此,在数据体系设计的前期要有一定的规划,即使简单的表和字段命名的规范也能带来很大的收益。

另外,从数据开发的角度出发,在做各种临时数据处理需求的时候也要有数据仓库的思维,多尝试抽象出来数据中间层,这样对公司和对自己的成长都是有帮助的。

三、      实现轻量级数据仓库

如果业务的快速发展不能留给你太多的时间来实现一个完善的数据仓库,那么可以考虑在前期实现一个轻量级的数据仓库,以尽可能小的成本带来较大收益。关于这个轻量级的数据仓库,建议优先考虑如下几个点:

1.明确数据分层

2.确定可执行的表和字段命名规范

3.定期抽象出常用的中间表

4.建设元数据管理系统,或者建设文档库,提供中间表的文档说明 

四、      不要脱离业务场景

做数据一定要记得贴近业务,虽说会有很多临时和重复需求,但却能切实地创造价值。

切记不要以为可以完全脱离业务去做一套数据仓库,我们可以在数据仓库的某个层次不以业务需求为导向来设计,但是最终面向业务的数据一定会是和业务理解有关。

五、尽早布局数据质量管理

请尽早布局数据质量管理的内容,不要等到发生严重的数据事故后才注意到数据质量问题。关于数据质量监控,如果没有足够的时间和精力做一套完整的系统,可以先从以下几个点入手,这样至少能对自己有一层基本的保护:

1.核心数据每日数据量级监控和告警

2.重要业务指标监控和告警

3.主要业务流程各阶段数据的监控和告警

六、      多使用视图表

多使用视图表对外提供数据服务,它可以有效地屏蔽业务方对最底层表结构变更的感知,同时加强权限管理。

如下场景可以多考虑使用视图表:

1.该表经常会有加字段的需求

2.该表的计算口径会出现变化,需要并行跑多份数据,某个时间点进行表切换

3.该表可能会对不同人或部门提供服务,希望不同人或部门可读的字段不同

视图表主要是来晚上表结构变更、口径修改和权限管理的场景,不要滥用而增加维护成本。






免责声明

凡本网站注明“来源公众网站”的作品,均转载自其他媒体,转载目的在于传递更多信息,并不代表本网站赞同其观点或对其准确性、可靠性、完善性负责。本平台对转载、分享的内容、陈述、观点判断保持中立。

对于本网站涉及的各类评论,仅代表评论者个人观点,并不代表本网站证实或赞成其描述。如其他媒体、网站或个人转载使用,需保留本网站注明的“稿件来源”,并自负法律责任。