首页 >>新闻中心

数据治理平台工具的前世今生 2019-06-06

数据治理背景介绍

狭义上讲,数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。有的专家干脆把广义的数据治理称为数据资产管理。

数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。

数据治理管理工具演变历程及各自阶段典型特点

笔者根据20年的从业信息化行业经验,总结了数据治理工具演变历程和在不同阶段典型特征。

image.png

图1. 数据治理管理工具演变历程

1)第一代数据治理工具-编码时代(起步期,1994-2004年)

在这个时代里,企事业单位各种MIS系统得到较好的发展和应用,最典型莫过于是物资管理系统、进销存系统、PDM系统等信息系统。为了确保这些MIS系统各种编码好用,好查,避免一物多码情况的发生,一些大型集团企业在早期开发一些名叫“编码系统”“编码网站”等系统,这些系统主要发布主数据代码为主,配合某一单一的MIS系统应用为主,有的甚至在这些单一系统开发一个模块,如编码模块。这是数据治理工具最早期的工具,确保MIS中各种编码唯一性。

以下为编码管理系统功能架构。

image.png

图2. 编码管理工具功能结构图

以下以物资编码管理系统为例,列举了物料编码系统功能点。

image.png

图3. 物料编码管理系统功能范例

在这个时代,编码系统采用B/S架构、C/S架构都有,采用.net和JAVA技术居多,通过分发和订阅形式发布数据。以下为物资编码系统系统页面。

image.png

图4. 物料编码管理系统功能页面范例

2)第二代数据治理工具-主数据管理时代(发展期,2005-2011)

这个时代最典型是国内很多大型集团企业流行实施ERP系统,国外主流产品例如SAP ERP和Oracle EBS等产品,国内主流产品例如用友的U8、NC、金蝶的K3等。

最早的是些外国ERP厂商推出MDM产品,例如Informatica、Oracle、IBM、SAP 、微软都采取了自有产品并提供主数据管理解决方案,集中管理单一版本的、完整的和可信任的主数据信息。这些产品具有企业级主数据存储、数据整合、数据共享、数据质量、数据治理5大功能。基于SOA架构的企业级应用。支持两种实施模式:即“推动模式(交易模式)”和“拉动模式(共享模式)”。

主数据分发和交换主要采用企业服务总线(ESB)产品,较多使用国外主流IT厂商产品,例如:微软的BizTalk、IBM WAS 、 Oracle OSB 、SAP XI(后来叫PI/PO)等。采用SOA, B/S架构,主要为ERP等经营管理系统服务。

image.png

图5.某国际厂商 MDM系统的功能结构

某国际厂商主数据管理解决方案涵盖主数据建模、数据导入、数据分发、数据查重、数据校验、数据完善、数据创建流程等企业主数据管理的各个方面。提供基于行业标准的模型建模语言,供客户快速定义主数据创建或审批流程,支持并行和串行流程,并提供强大的流程分析报表,帮助企业提高流程效率。同时提供Java/.Net/Web Service等多种API,满足和企业内其他系统集成的需求。该主数据管理解决方案可通过数据校验、数据查重和数据合并等手段,有效的提高企业主数据的质量。同时提供可选的组件Data Quality,提供深度的数据质量校验功能,如根据中国邮政名址库进行客户地址校验更正,提高地址的质量。

系统集成平台采用总线的方式进行设计和搭建,总线的方式最适合大规模、多系统的场景下系统集成的需求。

image.png

图6. 数据服务总线示意图

通过实施主数据管理系统,推动主数据(如:客户、供应商、产品、员工等)管理规范化、标准化,从而实现整个企业范围内主数据的统一管理、集中维护,并且实现这些主数据与各个关联业务系统的协同和分发,保证企业在异构环境中各个信息系统具有统一、准确、高质量的主数据,从而推进业务流程的改进,提高生产力。

3)第三代数据治理工具-数据标准化时代(成熟期2012-2018)

随着大数据技术应用以及智能工厂(车间)建设,企业的信息信息系统越来越多,尤其生产制造领域系统越来越普及深入,主数据服务不仅仅只是限于以ERP为核心的经营管理层面的系统。在这个时代,最典型的以MES为核心的智能制造系统也提出更高需求。“集中集成,创新提升,共享服务,协同智能”成为主旋律。

数据的集成和共享是其重要的特点,更是强调数据的标准和统一。数据标准化、规范化是实现信息集成和共享的前提,根本上消除各业务系统的“信息孤岛”。

独立、自主、安全、可控”在某些领域和行业提出国产化的需求,去IOE的浪潮一浪盖过一浪。很多大型集团企业开始采用开源技术独立开发数据治理工具, 采用微服务架构,满足MES、PLM等多个层面数据共享需求, 内容扩展增加了动态建模、移动应用,生产层面的主数据、数据指标、多语言等功能。数据交换平台逐步采用国内自主ESB相关产品。

image.png

图7. 信息标准化管理平台功能架构

4)第四代数据治理工具-数据治理时代(展望期,2018-至今)

近年来,随着大数据平台和工业互联网兴起,数据治理平台主要采用数据中台技术和微服务架构初步替代传统架构、面向大数据架构下,为数据资源中心与外部数据系统提供数据服务。对内和对外系统提供云服务。

数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享;推进信息资源的整合、对接和共享,从而提升政务单位信息化水平,充分发挥信息化作用。

image.png

图8.数据治理平台技术架构

实现数据打通,业务融合协同,共享、共用的中台工具开发数据治理产品。

数据治理管理工具功能架构

数据治理管理工具用于落实数据管理体系,实现数据管理自动化,提高数据管理效率,确保数据质量、实现安全数据共享。主要包括数据门户地图、主数据管理、数据指标、元数据管理、数据模型工具、、数据交换与服务工具、数据资产管理、数据开发、数据质量管理、数据安全。

image.png

图9.一体化数据服务&治理平台功能架构

3.1数据门户地图

数据门户管理,实现数据分布与地图管理,建立可信源及拥有者管理、数据目录树、数据实体、数据项、数据标签为基础的数据资产目录,打破信息孤岛和部门边界,实现组织范围内的数据关联与分析管理,实现数据的便捷查询、浏览,增强用户体验,提升业务价值,实现数据分级分类,为数据战略、数据管理策略的落地打下基础。

1)数据资产目录管理:可信源及拥有者管理(单位/业务域/信息系统/数据库等);数据目录树构建(自动、手动);数据实体管理(标识、名称、时效性、描述、组成、子实体定义等);标签管理(打标、分类等);敏感数据管理(安全标识、访问权限)。

2)数据关联与分析管理。实体关联管理(表、字段映射等);全文检索(实体、标签、分类等);数据实体展示(实体、逻辑关系、数据集);数据图谱展示(实体、关联、来源等);血缘关系和影响分析;供需关系;数据对账和使用跟踪。

3.2元数据管理工具

元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。元数据管理工具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。

image.png

图10. 元数据管理功能架构图

1)元数据采集:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑;

2)元数据管理:实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。

3)元数据展示:能够根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;

4)元数据应用:元数据的应用一般包括数据地图,数据的血缘、影响分析,全链分析等;

5)元数据搜索:可根据数据源库、类型等搜索元数据信息。

3.3主数据管理工具

具备企业级主数据存储、整合、清洗、监管以及分发等五大功能,并保证这些主数据在各个信息系统间的准确性、一致性、完整性。

1)主数据存储、整合:实现主数据整合、清洗、校验、合并等功能,根据企业主数据标准和业务规则和主数据质量标准对收集到的主数据进行加工和处理,用于提取分散在各个支撑系统中的主数据集中到主数据存储库,合并和维护唯一、完整、准确的主数据信息;

2) 主数据管理:支持对企业主数据的操作维护,包括主数据申请与校验、审批、变更、冻结/解冻、发布、归档等全生命周期管理;

3) 主数据分发与共享:实现主数据对外查询和分发服务,前者用于在其它系统发出针对主数据实时响应类查询请求时,返回所需数据,后者则用于提供批量数据分发服务,一般采用企业服务总线(ESB工具)实现方式。

4)主数据分析:实现对主数据的变更情况监控,为主数据系统管理员提供对主数据进行分析、优化、统计、比较等功能;

3.4数据指标工具

image.png

图11. 数据指标功能架构

1)数据指标定义:包含指标主题分类、各业务域具体指标定义、指标属性及模型管理。包含对指标的批量管理以及主题(即指标树)维护,其中主题维护主要包括对主题、一级主题、二级主题的维护。其中主题含投资、市场分析、财务、资产、人力资源、生产、采购、销售、库存、设备、工程、HSE、能源二十大类现有业务主题。

2)指标维度管理:主要是生产层面设置的时间维度、空间维度、物料维度以及层次维度四个维度的信息和所含具体维度进行管理。

3)指标维护:包括指标新增、修改、删除、审批、冻结、解冻、发布(分发)、导出等部分组成一个有机的整体,不同用户可根据自己的用户权限对数据指标进行申请、修改、查询、审批、冻结、解冻等功能操作。

4)指标的查询:提供对数据指标主题、属性、维度、指标以及导入表的按条件查询、模糊查询、树状查询数据等。

5)指标值的管理:实现对指标数据的集成及存储管理,定期向各系统发布。

3.5数据资产管理

数据资产管理着力构建数据资产管理体系,通过数据资产管理可将数据规范管理和数据处理实现有机的融合,实现对具体资源数据的元数据描述,支持利用标准化的数据接口以及形式丰富图表展示工具可快速定制各类数据资产应用,配合数据资产的全面评估,实现数据资产的“三全”管理,实现数据资产的三全管理:全生命周期管理、全流程管理、全景式管理。

数据资产管理主要包括:数据资产注册管理;数据资目录管理;数据视图管理;数据资产统计分析;数据成本管理和数据价值(收益)管理。

1)数据资产注册管理:包括分类管理、注册、审核、发布、授权等,提供数据资产安全管理,包括资产安全等级设置、资产安全角色设置、用户安全设置等。提供数据资产变更监控,可对数据资产的增加、修改、删除等操作进行实时监控。提供数据资产的导入导出。提供了信息资源的导入、导出功能。通过标准Excel、Word等格式进行信息资源的导入和导出操作。提供信息资源的启用、停用、恢复功能,可根据实际需求对信息资源进行启用、停用操作。

2)资源目录的管理:提供资源目录的注册、发布、申请审核等操作。信息资源注册实现了将信息资源注册到资源目录系统的功能。信息资源只有注册到资源目录系统中,才能进行配置、查询等操作。注册到目录系统的信息资源通过部门、业务主题进行分类。

3)数据视图的管理:利用技术数据视图实现基础业务数据的标准、规范及统一管理,包括数据视图的注册、发布、申请、审核等管理。进行分类统一管理,并形成一套规范去注册、发布、申请提供给其他用户使用。

4)资产统计分析工具:提供柱状图、矩形图等多种展现形式,对各部门已注册数据资源的数量、比例进行可视化展现。统计分析工具主要包括数据资源分布盘点、数据资源使用盘点、供需关系分析三部分。数据资源分布盘点可对各部门已注册的数据资源的数量、比例进行直观的展现;数据资源使用盘点可对各部门已申请、已审核的数据资源的数量、比例进行直观展现;供需关系分析可对各部门间的供需关系进行统计分析。

5)数据成本管理:从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。

6)数据价值(收益)管理:从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。比如可以选择数据热度、广度等作为数据价值的参考指标,通过ROI评估,高效管控和合理应用数据资产。

3.6数据交换和服务工具

数据服务交换和服务工具是数据采集服务、数据交换服务、数据加工服务、数据共享服务的统一支撑工具。数据服务工具采用面向服务的架构,提供数据服务实现数据交换、数据整合、数据复制、数据的传输、数据共享等功能。主要包括运行支撑、加工组件、服务组件、数据服务总线等组成。

image.png

图12. 数据交换与服务工具

1)数据采集服务:主要负责异构、异地的多源数据到贴源缓存区的采集,实现内外部系统的结构化数据、半结构化数据、非结构化数据等不同类型、不同时效的数据的复制与整合。结构化数据和非结构化数据的复制,将异构、异地的数据库数据、文件数据复制到缓存库中。

2)数据交换服务:支持多用应用场景数据交换,如:企业内部数据交换、企业上下级数据交换、基于前置机数据交换、物流隔离数据交换。支持全量、批量、实时的数据交换;支持大数据量的数据交换;支持复杂网络环境下的可靠数据交换;支持跨网段、跨单位的数据交换;支持基于通道、文件的加密传输;支持多种数据接口和传输协议;提供数据交换日志;支持断点续传功能。

image.png

图13. 基于流加工技术的数据交换及整合服务

3)数据加工处理服务:实现数据的转换、逻辑判断、数据质量的检查、异常处理、数据路由、数据的规范化等处理,用于将贴源缓冲区的数据根据需要加工到数据存储与处理层的结构化区、非结构化区,并能给数据主题区、分析服务区、数据实验室提供规范合理的数据。支持全量、增量、实时的数据处理,基于数据流处理技术,处理在数据流引擎中进行,减轻对数据源和目标的影响;提供统一加工服务实现数据库、数据仓库、NoSQL、搜索引擎、文件、XML、We b Service、传输队列、适配器、内存表、JSON 等之间的相互交换,通过工具可视化配置通过拖拉等操作,可视化配置异构数据之间的转换、加工、映射规则。

4)数据共享服务:服务提供方做服务资源的编目,注册到目录中心;中心做服务资源的审核、维护,并将共享的服务发布出去;服务使用方查询到服务后,向中心申请使用该服务;中心审核审批通过后给申请用户授权该服务的使用;服务使用方通过安全可管理的服务总线调用该服务,实现提供方和使用方的数据交换和共享。

5)运行支撑服务: 统一的工具实现可视化配置、任务的管理、安全管理、运维监控及调度管理功能,如上主要包括可视化配置及监控、调度规则的管理及运行监控模块、调度策略模块、流程调度模块、数据总线调度、服务模块等组成。