央企集团数据湖工具探索与构建

导语:在现有数据整体架构数据管控等基础上以数据的采存管用为主线构建流批一体湖仓一体的数据湖平台为综合央企集团数字化转型提供实践参考

近年来,宏观经济进入新常态,建设“数字中国”、发展“数字经济”成为国家战略。政府大力推进大数据技术产业创新,发展以数据为关键要素的数字经济,国务院国资委也不断加强科技创新工作推进力度,引导和推动中央企业发展战略性新兴产业,攻克关键核心技术,助力我国建设科技强国。


2022 年 1 月,国务院印发《“十四五”数字经济发展规划》,提出“充分发挥数据要素作用”“大力推进产业数字化转型”的具体指示。为实现数字集团战略愿景,需健全完善集团数据治理体系,增强数据治理能力,构建集团统一数据湖,针对集团经营管理和生产运营过程中产生的数据,进行汇聚、治理、共享、赋能的规划与实施工作,实现数据采集一贯到底,充分发挥数据要素价值,提升经营管理能力,加速数据与业务融合,赋能数字经济发展。围绕集团数字化转型的要求,在集团信创云平台环境上建设一套数据湖平台,实现对集团数据进行入湖存储和计算分析,并提供数据汇聚、开发、共享服务、数据标准化等数据治理能力。


1 数据湖平台选型要求


1.1 数据底座存储要求


作为数据湖的存储系统,要求可线性扩展,支持海量数据存储且应支持结构化、半结构化、非结构化等各种形式数据存储,支持湖仓一体架构,支撑各类数据应用。湖仓集一体架构是第三代大数据平台架构,大数据平台架构演进如图 1 所示。


图 1 大数据平台架构演进



在数据从数据源产生后,可以实时、T+1 天时效进入到数据湖存储。既可以用来支撑集团内部高时效数据的分析和处理,也可以支撑集团内部数据的批量分析和处理。要求如下。


1.1.1 实时入湖存储能力


支持数据实时入湖存储。支持数据以实时追加或更新的方式进行入湖,支持传统关系型数据库到数据湖数据的增量同步,支持数据 update/delete 能力写入文件系统。


1.1.2 批量入湖存储能力


支持数据批量入湖存储。支持通过批量集成、批量导入等工具,以定时加载或实时处理的方式,将常见的数据源 ( 如业务数据库、FTP 文件系统、消息日志、IoT 数据等 ) 的数据,批量接入到数据湖中进行存储、加工、分析。


1.1.3 流批一体数据加工能力


支持流批一体数据加工模式。支持分布式计算架构,丰富的计算引擎支持按照业务场景支撑海量数据的实时和批量 ETL、逻辑程序处理、灵活查询等多个场景所需的数据加工引擎。支持数据湖内的数据分层、数据模型建设,采用流批一体加工引擎及交互式查询引擎,进行数据入湖、加工、查询,要求分钟级完成端到端数据加工,并可以对加工结果进行即席查询。


1.1.4 分布式存储能力


提供分布式存储能力。支持提供 HDFS 等分布式文件系统,提供访问 HDFS 的 REST 接口,通过REST 接口可实现创建、删除、上传、下载文件等操作,在大规模集群场景下,HDFS 等分布式存储支持DN 分组,保证集群性能不受影响。


支持对接分布式对象存储、分布式数据库以适应不同的存储需求 ;支持在线横向扩展,无需停机即可增加存储容量和性能。


系统应通过数据分片和副本复制技术,确保数据在部分节点故障时的可用性和完整性。


1.1.5 存算分离能力


支持计算、存储服务分离 :数据可以存储在低成本的存储服务中,包含对象存储服务。


1.2 数据底座计算要求


数据湖需搭载多模异构的分布式存储和计算引擎,包含分布式分析引擎、流计算引擎、高性能数据库、全文检索引擎等组件, 支持NoSQL、HiveQL、标准SQL等 SQL语法方言。


1.2.1 离线计算


提供高性能的离线批处理作业运行能力,用于处理 SQL 类 / 非 SQL 类批处理作业,主要包括批处理 SQL 引擎和交互查询引擎,需支持批处理组件 (如Spark+Hive、Flink+Hive 等 )、分布式计算架构、统一标准 SQL 对多数据源访问、统一资源调度、动态伸缩能力。


1.2.2 实时流计算


提供高性能的实时数据流计算处理能力,流处理应用需要在一定时间内存储所接收到的事件或中间结果,以供后续某个时间点访问并进行后续处理。实时流计算需支持多种基础状态类型、精确一次语义、丰富的时间语义、流上执行类 SQL 任务、分布式计算架构。


1.2.3 搜索引擎


搜索引擎支持对存储在其上的数据的任意资源创建高效索引,适用于全文检索和多字段综合搜索场景。搜索引擎服务支持结构化、非结构化文本的多条件检索、统计和报表生成,拥有完善的监控体系,提供一系列系统、集群以及查询性能等关键指标,支持日志搜索和分析,支持对时空检索、时序检索的功能集成和拓展,支持智能搜索等场景。


1.2.4 高性能数据库


提供高性能、实时的分析型数据库,供集团实时数仓使用,秒级海量数据查询、支持高并发查询、支持高吞吐的复杂分析场景、全面元数据管理、支持标准 SQL等。高性能数据库能够较好地满足报表分析、即席查询、统一模型构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建涉财数据分析、日志检索分析、用户画像分析等应用。


1.2.5 基于内存的分布式执行引擎


内存的分布式执行引擎支持快速的计算、写入,以及交互式查询的框架。允许将用户显示的数据转换过程持久化到硬盘。对于数据本地化,通过允许用户能够基于每条记录的键值,控制数据分区实现。分布式执行引擎要能够对数据底座中各类存储引擎做统一的数据调度与计算,数据底座能力架构如图 2所示。


图 2 数据底座能力架构


1.2.6 多租户模式


支持集团用户按照多租户模式管理自身计算模块需求。


1.3 工具要求


数据湖需要满足数据管理要求,持续优化开发体验和提高开发效率,并支持与现有相关平台对接,实现数据交换与应用,支持第三方关系型数据库的数据全量加载以及多租户部署,以满足不同业务单元的需求。为满足数据管理相关要求,平台工具需要具备数据开发、数据治理、数据资产运营等能力,一方面支撑数据的接入,另一方面支持数据对外共享,数据管理能力规划如图 3 所示。


图 3 数据管理能力规划


1.3.1 数据汇聚管理


支持从结构化、非结构化、消息等各类型数据和不同的数据源批量、实时入湖,包括离线和实时数据集成,支持批量、实时、一次性等多种采集方式。


1.3.2 数据开发管理


支撑数据治理脚本、作业的开发、编排和调度,支持业务模型创建,支持快捷可视化开发。包括数据集成、数据采集、数据开发、数据模型等,支持一站式编排、调度、运维管控,实现工作流编排、作业调度、运维监控、数据管理等一站式操作,无须切换多个工具。


数据开发提供可视化的图形开发界面、丰富的数据开发类型、全托管的作业调度和运维监控能力,支持多人在线协同开发,支持管理多种大数据云服务。


支持配置离线、实时数据同步任务,支持对全量数据提取和增量数据提取及处理,支持从关系型数据库、文件系统、API、消息队列等多种数据源提取数据,并对各个任务流程进行监控。


1.3.3 数据资产管理


数据资产目录是集团数据湖的数据资产全景视图,以数据目录的方式形象地展示数据湖的数据分布情况,实现对数据湖数据资产的全方位搜索以及数据的溯源和去向分析,服务于数据共享和数据应用。数据目录与元数据功能打通,提供数据资产的统一视图,支持数据智能搜索、数据资产标识、数据血缘分析、数据资产概览等能力。


支持通过分层架构表达对数据的分类和定义,厘清数据资产,明确业务领域和业务对象的关联关系,用于目录化管理所有业务数据,便于数据的归类、查找、评价和使用。


1.3.4 数据服务管理


建设集团统一数据门户,提供统一门户服务,构建多平台间协同框架,提升数据标准化治理与业务管理的体验与效率。实现统一管控、流程贯通、资源共享、数据运营的功能。实现对各类工具的统一管理。支持统一用户、统一认证和单点登录,统一门户实现跨平台的统一用户和统一认证,提供单点登录机制。通过统一认证和单点登录,能够实现数据账号的统一管理。


数据交换服务基于数据资产地图提供各种数据共享交换服务,整个服务门户可以分为前后台,主要包括数据集成、交换任务管理、数据服务支撑、共享目录管理等功能模块。 支持服务发布、订阅、测试及审核管理,同时支持对服务调用情况进行监控,以确保平台采集管理的数据实现正常交换共享。支持快速将数据表生成数据 API 的能力,支持通过可视化配置的向导模式快速生成数据 API 功能。确保数据接口的安全性和稳定性,对接口进行访问控制和权限管理,防止数据被非法访问。提供服务的安全授权功能,授权用户允许访问的服务,支持黑白名单、速率控制、调用次数限制等安全控制功能,实现数据服务的统一管理,保障数据的安全共享。


1.3.5 数据安全管理


基于资源和基于标签的细粒度进行权限管理,提供数据生命周期内统一的数据使用保护能力,通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。


1.3.6 数据治理管控


数据质量是数据治理的最终目标。入湖数据需要数据标准管控,实现数据标准的集中管理。通过数据质量管控对数据标准的符合程度进行稽核与改善,生成数据质量报告,快速定位低质量数据,设置数据对账作业。采集和管理元数据,对数据开发过程中的数据血缘进行自动采集,形成数据地图,支撑数据资产的统一管理。


1.3.7 多租户管理


数据湖要支持集团用户按照多租户模式管理自身计算模块需求,支持集团各层级单位的多租户需求,各租户可以自行管控自身搭建的数据湖体系,实现独立的互不干扰的数据存储、计算和管理,能够按照自身需求发布租户管辖下的数据服务。


1.4 平台整体架构要求


数据湖平台应具备完整的数据平台整体解决方案能力,满足功能性要求和非功能性要求,包含存储要求、计算要求、管理要求等技术要求以及二次开发要求等。根据相关要求,数据湖平台起到承上启下、统一标准、融合贯通的能力,赋能数据入湖、存储、出湖、应用全过程,平台整体功能架构如图 4所示。


图 4 平台整体功能架构


(1) 平台数据存储应支持线性扩展,支持结构化、半结构化、非结构化等各种形式数据存储。


(2) 平台具备强大的数据计算能力,包含离线计算、实时流计算、快捷搜索能力、分布式执行能力、多租户模式,以及各种高性能数据库。


(3) 平台支持 PB 级别数据量实时分析和检索,具备大规模搜索和分析能力,能够在 PB 数据量级上实现秒级响应搜索功能。


(4) 支持部署在信创服务器中使用,且支持多种常见国产操作系统。平台组件支持云原生部署,核心存储计算组件满足国产化要求,支持部署在国产主流信创服务器,并且支持不同操作系统、CPU 架构的服务器同集群混合部署。


(5) 集群规模可平行扩展,物理机扩容及缩容过程平滑。平台具备资源弹性共享能力,可提高资源利用率,同时具备良好的隔离性,可保障服务质量和安全性,可全面支持一键式部署、扩容、缩容,同时也允许虚拟机环境下其他服务和大数据服务共享集群,从而提高资源的使用率。


(6) 数据湖平台支持市场常见的数据源类型,支持包括关系型数据库、非关系型数据库、国产主流数据库,以及数据仓库、搜索引擎、文件系统HDFS、Hive 等多种同构、异构数据源之间的数据迁移,并支持数据单向、双向迁移。


(7) 平台支持在同一节点上部署多个同类实例,进而提升资源利用率。首先,对部署节点的硬件资源进行详细评估,包括 CPU、内存、存储和网络带宽等,可确定节点的最大承载能力。其次,分析单个实例在不同负载下的资源使用情况,包括正常运行、高负载读写等场景下对 CPU、内存和存储的需求。最后,针对每个实例,调整关键参数以适应多实例部署环境。


2 数据湖架构设计


2.1 数据整体架构


根据数据湖平台与工具选型相关要求,集团需要规划多模异构数据湖平台,在同一平台中实现数据多模态数据存储计算需求,避免数据移动,将原始的、加工清洗的、模型化的数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型数据集市业务,实现多模异构的“湖仓一体”方案。


除了湖仓一体能力外,平台支持实时数据与批量数据的混合处理,即流批一体能力。平台通过统一流批计算引擎 ( 如Flink/Spark) 及流批一体API(Table API & SQL),实现同一作业无缝处理实时流数据与历史批量数据,确保数据一致性与计算效率。依托数据湖存储的更新能力,平台支持实时增量数据与离线全量数据的联合分析,例如 :实时风控中融合流式交易流与历史用户画像,或实时看板同步更新批处理修复后的数据。同时,统一状态管理与 Exactly-Once 语义保障了端到端数据可靠性,资源调度层动态适配流批负载,降低运维复杂度。此架构已支撑企业实时推荐、供应链监控等场景,未来可扩展至多模态数据处理,全面赋能业务敏捷决策。


2.2 数据采集汇聚


平台通过多模态数据集成构建统一采集中台,覆盖实时数据接入和离线批量归集。


(1) 实时数据接入


流任务管理模块可实时捕获财务流水、订单、人力资源等动态数据,结合 OCR 分类 ( 如发票识别 )与事件模块处理异常告警,支撑“运营监控”与“智能投资”场景。


(2) 离线批量归集


数据集成工具从合并、核算、预算、财务共享、主数据、人力资源、合同等系统抽取历史交易记录、客户档案、合同文本等数据,通过分交与分场逻辑完成数据清洗,解决数据分析断层问题。


2.3 数据治理管控


通过多个治理模块构建数据资产化体系。


(1) 数据质量管理


数据质量管理是确保数据准确性、完整性、一致性、及时性和可用性的核心环节,通过数据质量规则定义与管理、数据清洗与修复、数据质量监控与告警、血缘追踪溯源等方式保障数据可信度,为集团的智能决策、风险管控、资源优化提供基础支撑。


(2) 数据标准管理


数据标准管理是确保数据定义、格式、使用规范统一的核心能力,通过标准制定与执行、元数据驱动、合规性管控等方式实现数据语义一致性,为集团的数据共享、跨系统协作和业务协同提供规范化基础。


(3) 数据安全管理


除了数据分类分级能力外,平台的系统保护模块通过 RBAC 权限控制 ( 如财务数据仅限审计角色访问 ),满足企业审计与隐私保护要求。


根据上述能力,以数据的“采、存、管、用”为主线,打造一体化的数据湖平台,数据湖架构设计如图 5 所示。


图 5 数据湖架构设计


3 结语


在数据湖工具的构建过程中,集团引入了先进的数据湖技术框架,并紧密结合集团特色的业务需求与数据特性,成功搭建了一个兼具高扩展性、高可用性和强安全性的数据湖平台。以此平台为基础,集团统一了数据入湖标准,不仅完成了集团统建系统的数据治理与汇聚入湖,也与下级 10 余家二级单位进行联通,有效促进了集团各层级、跨组织、多业态数据的高效共享。同时,集团构建了全面、及时且准确的信息架构,建立了集团全域数据资产目录,制定了数据主题域、质量、元数据管理机制,并持续优化运营流程。


展望未来,随着集团对数据赋能能力需求的不断深化,以及数据湖技术的持续发展与创新,集团的数据湖工具将面临更高的要求。需要进一步强化其功能,提升性能,补齐短板,例如完善数据资产注册与发布机制、优化质量评估流程、加强数据生命周期管理,并实现数据共享与集团管理流程的全流程贯通。此外,集团还将积极探索数据湖与其他新兴技术的融合应用,例如“AI for data”,深入探索大模型能力对数据湖工具能力的提升,以提高数据湖的智能化水平,助力集团在数字化和人工智能时代实现可持续发展。



原文刊载于《信息技术与标准化》2025年第6期  作者:国投云网数字科技有限公司 吴越 聂学明


暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码