数据治理工具建设实践与思考——以中国海油为例

导语:中国海油提出数据治理工作与数据平台建设同步推进的管理策略在数据治理工作的实施与持续优化中形成了一套平台化的数据治理工具产品

中国海洋石油集团有限公司(简称中国海油) 积极响应国家对数字中国、数字经济建设的战略要求,加快推进数字化转型智能化发展。经过数十年的发展,中国海油在经营管理层面不断提升信息系统的支撑能力,先后建设了ERP、采办2.0、零管、电商、风控、物流等50 余套业务系统。随着系统的数据规模不断增长,数据关系日益复杂,业务人员在获取数据时,普遍面临“找数难、沟通难、共享难、理解难”的问题,如何将众多业务系统中的数据进行统一管理,形成中国海油的全局数据资产并赋能集团公司与二级单位的生产经营活动,成为数字化转型进程中不可逾越的一环。


2023 年,中国海油全面启动集团经营管理数据治理工作,并于2024 年启动“数据责任落实年”,号召全员落实数据责任,提升数据治理能力。中国海油提出数据治理工作与数据平台建设同步推进的管理策略,在数据治理工作的实施与持续优化中,形成了一套平台化的数据治理工具产品。产品具备体系化数据治理功能架构、模块化设计、可配置流程及标准化开放接口,其应用效果在中国海油的数据治理实践中得到了良好验证。


1 数据治理工具建设的必要性


各企业在开展数据治理工作过程中,为实现对全企业范围内数据资源的统一管理,需要各业务域进行数据资产梳理、数据标准建立、数据质量优化、数据开放运营等过程的反复迭代和持续推进。同时,数据治理工作亦会伴随着对既有数据加工逻辑与业务流程的优化改造。面对庞大而复杂的数据治理工程,如何降低数据治理人员的手动工作,提升数据治理的工作效率与工作质量,是摆在企业数据治理工作面前的一大课题。数据治理工具的开发与建设,成为解决这一课题的关键武器。


为了破解数据治理工作的复杂性、长期性与治理成果质量和资源投入之间的矛盾,众多企业都在积极探索并利用系统工具对数据治理工作进行有力支撑。例如,华为公司在企业自身的数据治理工作中形成的工具产品DataArts Studio 一站式治理运营平台,包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统。


中国海油等油气企业涉及大量的生产、运营和管理数据,包括勘探、开发、生产、运输、销售等多个环节,这些数据量大、复杂度高,涉及来自不同部门、不同系统、不同设备的多源异构数据。中国海油等油气企业充分认识到企业数据治理工作的复杂性和特殊性,迫切需要利用数据治理工具对企业众多业务系统进行数据资源盘点及数据目录梳理,并基于数据治理工具开展批量化数据资产目录导入与稽核,大幅提升工作效率。同时,中国海油等油气企业经过数十年的业务发展,普遍面临历史业务系统众多的难题,需要依托数据治理工具的元数据自动采集、数据血缘分析等功能,快速与各业务系统、数据湖和中台打通接口,保障各系统间数据的准确性、一致性和安全性,实现数据资产目录统一线上管理及数据快速查询。


2 数据治理工具建设的难点分析


数据治理工具建设是一个复杂过程,涉及技术、业务、管理等多方面挑战。结合中国海油实践经验,建议聚焦关注3 类建设难点。


2.1 瞄准目标用户,反复迭代优化


数据治理工具建设的主要目标用户有两类,一类是开展数据治理工作的人员,另一类是数据治理成果的使用人员,即业务用户。针对数据治理工作人员,工具的主要任务是通过技术辅助手段提升数据治理工作效率;对于业务用户,数据治理工具的主要目标是为业务人员提供高质量企业数据视图,并与底层平台有机衔接实现数据的快速查询与展现。因此,数据治理工具建设过程中,需要在蓝图设计与功能模块开发阶段,进行“需求调研、原型设计、上线应用、问题发现与优化”的反复迭代,及时将两类用户的需求在每个迭代周期中进行分析并在工具中加以实现,这样才能将工具的价值充分发挥出来。


2.2 重视横向打通、纵向贯通,构建全局数据资产目录


各业务条线或基层单位在进行自身数据平台建设时,更多地聚焦于自身生产运营的支撑能力,因此在业务主题、业务对象、数据属性等方面只按照自己的业务需求来设计实现。要构建企业级数据资产目录,需要对各业务条线的业务数据与系统进行详细梳理,打通“目录—数据资产—系统”的关系,通过元数据拉通、自动化采集、系统辅助进行元数据映射等手段,提升全局数据资产目录的建设效率与质量。


2.3 关注与底层数据平台的对接问题


业务人员在数据目录中看到企业数据全局视图的同时,还需要进行数据的查询访问,这就需要数据治理工具与底层数据平台(如数据湖、数据中台等)之间实时联动。同时,数据治理工具还需要将数据标准、数据质量、数据安全等治理规则及时同步至底层数据平台进行落地支撑,为数据质量提升、安全共享、溯源认责等提供有力保障。因此,在数据治理工具建设过程中,需要重点关注与底层数据平台的对接问题,保证接口有效联通及数据权限有效管控。


3 数据治理工具的关键能力


中国海油将数据可见、可懂、可用、可运营(简称“四可”) 确定为数据治理工作的核心目标,确保正确的数据以正确的方式、在正确的时机传递给正确的人或设备。可见,即通过数据盘点形成统一数据资产目录,实现全局可见;可懂,即建立统一数据标准,规范数据的业务含义,真实反映业务运转情况;可用,即提升数据质量,强化安全管理,确保数据可信;可运营,即推动数据开放流通,促进数据价值释放。因此,数据治理工具的关键能力也需围绕这一核心目标的4 个方面进行着力打造。

图1 数据治理工具支撑数据“四可”的关键能力


3.1 数据可见


数据可见是指企业内各岗位用户能够轻松地发现及理解数据的能力。要实现数据可见,就需要对分散在各个业务领域、系统中的数据进行盘点和梳理,构建统一的数据资产目录,以可视化的界面使数据的生产者、使用者和管理者等快速精准地查看、检索、共享各类数据资源。数据资产目录是以企业全局视角对数据资源进行分类,实现管理、识别、定位、发现和共享的一种分类组织方法,包括业务目录和技术目录。业务目录是数据在业务逻辑层面的查询索引,分为多个层级,如图2 所示,分别为主题域分组(L1)、主题域(L2)、业务对象(L3)、逻辑数据实体(L4)和属性(L5)。

图2 数据资产业务目录层级结构


技术目录是数据在信息系统数据库中的查询索引。通过将业务目录的L4、L5 与技术目录挂载,实现数据资产业务目录与实际数据库中物理表、物理字段的关联,让业务人员通过业务目录找到所需的实体数据。


数据资产目录的构建一般分为建立、稽核、组织和集成4 个步骤,每个阶段都需投入大量的人力和时间去开展数据的梳理、分类、核对等工作,并且各项工作成果的质量参差不齐。基于上述问题,有针对性地开展工具设计,引入文本解析、关系图谱等主流AI技术,开发数据血缘自动发现、业务目录与技术目录自动挂接等关键功能,形成一套完整的数据资产目录管理工具,实现数据资产的发现、盘点、组织、展示及集成等全流程自动化、智能化。数据资产目录管理的功能包括数据发现、数据盘点、数据组织、目录展示、能力集成5 个模块(图3)。

图3 数据资产目录管理功能


其中,数据发现模块支持数据资源的全方位展现,支持多维度可视化展现数据资源目录,按主题域、系统、数据类型等展现数据分布情况,按照使用量、热点数据等展现数据使用情况。数据盘点模块支撑自动化采集盘点数据资源,形成数据资源目录,大幅度降低人工工作量;同时,通过数据稽核、数据评估等功能保障数据的一致性及完整性。数据组织模块面向不同对象、不同应用场景提供相应的数据目录,实现数据资源目录、数据资产目录、数据共享目录、数据开放目录等不同数据目录之间的转换及自由切换。目录展示模块提供多维度检索及多种数据关系分析,实现基于系统、关键字等多种方式的检索,帮助业务人员快速找到数据。能力集成模块实现对企业现有的数据管理工具、数据处理工具、数据分析工具的集成,为数据管理者和数据使用者提供一体化支撑能力。


中国海油利用数据治理工具摸清数据家底,首次实现了数据资产目录的线上化管理,目前已将人力资源、财务资金、物资供应链、规划计划、法律合规、审计、天然气发电、化学等核心业务域共计10 万项数据纳入了数据资产目录统一管理,实现了业务人员从不知道都有哪些数据到可以清晰看到数据全景视图的质的飞跃。


3.2 数据可懂


数据可懂是指能够让业务人员准确把握数据的业务含义、上下文信息及用途。实现数据可懂,首先需要在业务术语和定义、指标数据、主数据等方面制定统一的数据标准,使用户清晰理解数据的业务含义;其次利用数据治理工具将这些标准固化到系统平台中并对数据关系和数据流进行规范化建模,使用户清晰地理解数据的用途;最后通过对系统中的数据结构、属性、数据加工逻辑等信息(即技术元数据) 进行采集与映射形成直观易读的数据资产目录用户界面,帮助用户快速找到所需信息并读懂数据。


3.2.1 数据标准管理


每个数据元素都应该有清晰和一致的业务定义,这样用户才能理解其业务含义。通过数据标准管理模块可以灵活、高效地定义及管理各类数据的业务规则、术语、命名规范及业务描述,从而提高数据的透明度和一致性。数据标准管理的功能包括标准管理、标准检索、标准概览、标准映射、落标稽核等(图4)。

图4 数据标准管理功能


中国海油目前已通过数据治理工具对业务术语标准、数据项标准、指标标准等共计5 万多项数据标准进行管理,让业务人员不仅能看到数据,而且能掌握数据的含义与规则,从而促进不同系统、不同部门之间的数据整合。


3.2.2 数据模型管理


数据模型是对企业各类数据的抽象化描述,是连接IT 和业务之间的桥梁,是企业管理数据和使用数据的基础。数据模型的组织结构遵循L1—L5 的建模方法,数据治理工具通过直观友好的界面为用户提供逻辑模型设计、物理模型生成,以及对模型进行标准引用与质量稽核等功能,让数据开发人员能够严格按照数据标准与约束规则进行模型开发,实现数据模型开发的自动落标,从而使每一个数据模型都具备清晰的业务属性信息及标准引用信息,为业务人员理解数据打下坚实基础。数据模型管理的功能包括模型设计、逻辑模型物化、模型版本、模型审批流程等(图5)。

图5 数据模型管理功能


中国海油已实现了对各业务域近7000 个物理模型的标准化管理,为基础数据和应用数据的数据质量提供了有力保障。


3.2.3 元数据管理


元数据是对企业各类数据的业务含义与技术属性的定义,是描述数据的数据,让数据可懂的关键信息。数据治理工具通过元数据管理模块将数据资产目录、数据标准、数据模型与加工逻辑等元数据信息进行自动采集、解析与管理,从而让数据开发人员掌握数据的来源、去向、结构和质量情况,为数据使用人员提供易于理解、没有歧义的数据资产。元数据管理的功能包括元数据管理、元数据需求、元数据解析、元数据稽核、元数据服务、元数据采集等(图6)。

图6 元数据管理功能


中国海油基于不断迭代完善数据治理工具的元数据管理功能,让业务人员不仅能看到数据,而且能掌握数据的含义与规则,从而促进不同系统、不同部门之间的数据共享,数据流通数量提升了近3 倍。


3.3 数据可用


数据可用就是要为业务人员提供高质量、安全的数据资产,同时让业务人员能够方便灵活地进行数据的订购申请、审批并使用数据,实现数据资产的闭环管理。


3.3.1 数据质量管理


数据质量管理实现对数据质量问题发现、分析、解决及考核的全流程闭环管理,通过周期性的质量规则检查生成质量稽核报告,将结果通报各业务域、二级单位、相关系统进行整改并形成质量知识库,持续迭代提升数据质量,保障在数据应用与共享时的可靠、可用性。数据质量管理的功能包括质量规则管理、质量任务管理、质量问题管理、质量检测报告分析、数据质量知识库等(图7)。

图7 数据质量管理功能


中国海油根据对数据完整性、规范性、准确性、一致性、可用性、及时性的质量要求,已在数据治理工具质量管理模块上线了5 万余条质量规则,并支持通过数据血缘反向追溯,找到问题数据的源头并进行治理,实现数据质量持续迭代。


3.3.2 数据安全管理


随着数据资产价值的提升、数据共享业务场景越来越多,数据安全保障工作的重要性日益凸显。通过数据安全分类分级、敏感数据加密脱密、数据安全审计等方式建立数据安全管理手段,确保数据在访问和使用过程中遵守相关的安全和隐私标准,有效避免违规处理数据、数据泄露和数据使用不当等带来的数据安全问题及额外成本。数据安全管理的功能包括系统安全防护、数据安全分类、安全稽核报告等(图8)。

图8 数据安全管理功能


中国海油已发布数据分类分级管理办法,根据影响对象和影响程度将集团公司数据由低至高划分为公开数据、一般数据、重要数据、核心数据4 个级别。各业务域按照管理办法,以数据资产目录为基础,制定了8000 余条数据分级规则,并导入数据治理工具。


3.3.3 数据资产闭环管理


有了数据质量与数据安全的保障,数据治理工具还通过与数据湖和中台、统一用户认证平台、OA 等系统进行集成,实现从数据资产目录索引到数据使用的贯通与闭环,业务人员无须再进行烦琐的线下审批流程,可以从资产目录的“可见”数据直接进行数据订购申请与线上审批,快速“可用”,数据申请与使用效率由过去的几天甚至几周时间提升至小时级甚至分钟级。


3.4 数据可运营


数据运营是指数据在整个公司层面可以被有效管理和使用的能力,以支持日常运营和决策。其涉及数据的收集、存储、处理、分析和分发等各个环节,确保数据在各组织内部流动顺畅,并且能够被正确地使用。通过提高数据的可运营性,公司能够更好地利用数据来优化业务流程、提高决策质量、创新产品和服务,最终实现更高的业务效率和竞争力。数据运营要始终围绕资产价值来开展,因此使用数据的便利程度、直观程度、协作程度均是影响其价值发挥的关键因素。


3.4.1 数据服务管理


数据服务是促进数据对外开放从而产生价值收益的关键一步,数据服务管理功能旨在通过规范化的接口开发、数据安全与合规保障、运维监控等手段,提升数据接入效率,降低数据安全管控成本,并支持对数据服务调用的统计和日志明细查询,以便及时发现并修正数据服务的调用异常。数据服务提供标准化的应用程序接口(API) 和用户界面,使不同的应用程序和用户方便数据集成和使用。数据服务管理功能包括:服务订阅、服务浏览、服务调用、流程管理、数据管理等(图9)。

图9 数据服务管理功能


3.4.2 数据门户


围绕公司各类数据参与者,根据不同角色的工作关注点、权限,通过统一入口提供个性化的信息门户界面,使用户能够及时了解个人工作任务、掌握数据整体情况、了解系统及数据运营情况,帮助用户更好地看懂、使用、运营数据,促进数据价值的释放。数据门户的功能包括:个人工作台、数据地图、运营驾驶舱等(图10)

图10 数据门户功能


个人工作台模块提供支撑用户个人工作的信息服务、工作流服务、消费服务等功能。数据地图模块以可视化的方式展示各类数据的全貌、分布、关系、变化趋势、问题和价值,支持PC 端、大屏端多端展示功能。运营驾驶舱模块提供通知公告、用户分析、订购分析、工单分析、报表分析等运营监控及分析功能。


目前,中国海油的人力、财务、物资供应链、规划计划、法务、审计六大业务域及海工、气电等二级单位的各层级业务人员通过数据治理工具的支撑,能够便捷地看到数据、查看数据定义与规则,并快速获取高质量的数据开展生产运营监控、供应链协同、产品优化等应用,同时以用促治,实现数据治理工具的迭代优化。


4 结束语


数据治理是一项持续且复杂的工作,如何打造一套适合企业自身的数据治理工具,应结合企业自身业务发展与数据平台建设情况,在进行数据治理总体蓝图规划的基础上,进行数据治理工具的整体框架与功能设计,明确系统边界范围与阶段性目标,并在每个阶段过程中进行业务需求的迭代与功能打磨。在数据治理工具加持的同时,企业管理层的统一部署、配套的组织、制度与流程,是持续推进数据治理工作、加速数据要素价值释放的重要保障。


中国海油充分认识到企业数据治理工程的复杂性和特殊性,在数据治理工作中走出了一条契合自身业务发展的道路。通过数据治理工具建设,将数据资产梳理及数据治理工作逐步转变为高效率、低成本、快速迭代的线上管理方式,有效促进数据入湖、安全共享与应用场景的落地。下一步,中国海油将持续深化数据治理工作,扩展非结构化数据管理,探索引入人工智能与大模型技术对数据治理工作赋能,并不断丰富数据应用场景,促进行业数据要素流通,为企业数字化转型发掘新动能。

暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码