面向大模型的数据治理

导语:深入分析面向大模型的数据治理需求提出针对性的数据治理框架详细阐述框架的构成要素给出需要重点研究的关键内容探讨未来的发展方向

为了建设数字强国,做强做优做大数字经济,构筑国家竞争新优势,2022 年,中共中央、国务院提出了关于构建数据基础制度更好发挥数据要素作用的意见;《“数据要素 x” 三年行动计划(2024-2026 年)》的通知,促使我国的大数据战略得到了进一步的发展。另外,大数据产业和技术的繁荣促使以 “文心”“DeepSeek” 为代表的大模型得到了更广泛的应用,形成了数据驱动的人工智能新范式,即 “大数据 + 大模型”。“大数据 + 大模型” 的应用范式深刻改变了应用架构体系,从工程式开发变为人机交互式开发,即以大模型作为交互接口,面向用户的交互开发,这种应用架构体系的变化给数据的效能发挥带来了严峻的挑战。一是由于大模型是数据的一种压缩和存储方式,实现了模型和数据的统一,的问题。二是在应用大模型的过程中会生成基于训练数据的业务相关数据,对这些数据如何进行管理和应用也是面临的新问题。三是如何统筹管理用户构建的微调数据和预训练数据,为大模型发挥最佳性能提供支撑,是需要解决的重要问题。


数据治理是解决数据生产、使用、管理等问题,释放数据效能的重要途径。然而,传统数据治理无法适应大模型带来的挑战,为了解决大模型应用发展给数据管理和使用带来的新问题,本文在分析大模型数据治理需求的基础上,提出了面向大模型的数据治理框架,深入剖析框架的构成要素,给出关键研究内容,探讨未来的发展方向。


1 大模型的数据治理需求


首先,给出大模型与数据治理的典型生命周期,如图 1 所示。

图 1 大模型与数据治理生命周期图


大模型的生命周期包括规划设计、预训练、模型评估、部署推理、运维监控与归档销毁。规划设计是面向业务需求和部署环境资源,选择合适的基础大模型架构,如编码器 - 解码器、因果解码器和前缀解码等,以及确定超参数,如模型参数个数等。预训练是通过开源或领域相关的数据,对大模型进行训练,使之涌现出期望能力的过程。模型评估是基于通用或业务相关的指标,对大模型的能力进行多维度的测评,从而评估其训练过程是否收敛以及是否能够达到能力要求。部署推理是将训练好的大模型进行适配,部署到业务生产环境中,为应用提供智能化支撑。运维监控是对大模型的运行情况进行监控,通过资源调度、日志分析等手段,为大模型的高质量持续运行提供支撑。归档销毁是对已经不再使用的大模型进行存储或销毁,并记录关键信息(如模型架构、模型参数、训练数据、应用场景、能力指标等),为后续大模型开发提供有价值的经验。


同时,图 1 中还给出了典型的数据治理生命周期,包括规划建模、数据采集、数据清洗、数据应用、归档报废。规划建模是面向业务需求,对数据结构、元数据等基本要素进行规划,并进行数据建模。数据采集是通过软件工具、平台应用或调查访问等方式获取汇聚相关数据。数据清洗是采用异常检测、缺失值处理、实体分辨、冲突检测以及数据增强等方法提升数据质量,提高数据的可用性。数据应用是通过数据格式化、数据融合、主题分析、大模型等方法手段应用数据赋能业务。随着时间的推移,数据的应用价值逐渐降低,当数据的效用不再满足应用需求时,将对其进行归档或销毁,并记录必要的信息。


显然,大模型在构建和运行的过程中,对于数据治理的需求是多样的,可能覆盖多个数据治理阶段,如可能需要根据大模型的性能评估结果不断调整数据清洗的算法和参数。另外,提升数据质量是大模型数据治理的核心,因此,大模型的数据治理应当围绕提升数据质量这一核心目标开展。具体而言:


在规划设计阶段,应当结合业务领域数据的特点选择合适的大模型架构,如自然语言大模型、图像大模型、视频大模型或多模态大模型,同时需要根据这些大模型的特征规划所需的数据并进行采集。


在预训练阶段,需要将采集的数据进行清洗,包括去重、缺失值填充、数据平衡、数据增强以及数据合成等,并将数据按照要求格式化之后供给大模型进行参数训练。


在模型评估阶段,需要根据大模型的应用需求或业务要求,通过数据建模、数据采集、数据清洗和进一步应用构建评测数据集,并结合评估指标对大模型的性能进行测评,指导改进模型设计和预训练数据构建;与预训练阶段的数据治理需求不同,模型评估阶段的数据治理需要关注测试数据是否能够准确反映大模型的性能,包括公平性、隐私性、价值观以及任务相关的能力等。


在部署推理阶段,需要对大模型在应用过程中使用和产生的数据进行治理,包括微调数据集、提示工程数据集、应用(用户)数据以及大模型生成数据;部署推理是大模型应用的主要阶段,也是数据产生、迭代、融合、使用等过程快速发展的时期,覆盖数据治理的所有内容。这阶段对数据治理的需求主要是能够支持数据的世系控制、快速演化以及面向不同需求的数据集构建。


运维监控是大模型稳定运行的阶段,需要对调用大模型的应用或用户的数据进行监测,避免出现影响大模型运行的情况。其次,需要对支撑大模型运行的数据源进行管理,优化面向大模型的检索和存储方法。最后,要通过大模型运行过程中产生的日志、用户反馈或性能监测数据对大模型的运行情况进行实时跟踪,为大模型的进一步优化和迭代升级打下基础。


在归档销毁阶段,主要是做好大模型在设计、训练、微调、使用过程中必要信息的记录,特别是使用的数据集和模型架构(参数及超参数),为大模型的深入研究和发展提供可信的数据。


2 大模型数据治理框架


本节基于大模型对数据治理的需求,提出大模型数据治理框架,如图 2 所示。

图 2 大模型数据治理框架


大模型数据治理框架由 10 个主要的功能要素构成,即数据质量控制、主数据管理、数据安全管理、平台工具管理、数据架构管理、数据指标管理、多模态数据管理、数据活动管理、成熟度与评估管理、策略与组织架构管理。


数据质量控制:以大模型和业务需求为牵引,在评估数据质量的基础上,通过组织数据、数据清洗等方法,控制并提升相关数据的质量。


主数据管理:面向组织的大模型业务应用,对元数据和主数据进行规划、控制和管理,特别是用于大模型训练和微调的数据,也需要纳入主数据的管理范畴,确保业务理解的一致性和结果的可解释性。


数据安全管理:对用户(或应用)的行为进行安全控制和审计,同时需要对数据的可信度、隐私性和平衡度进行评估和管控。


平台工具管理:当前以大模型为核心的业务体系迭代发展快、人机交互频繁,仅靠传统的业务构建和软件开发流程难以满足大模型应用的发展需求;另外,数据版本演化的迅速性以及数据源的非固定性,使得采用针对单一流程的数据管道开发方式难以适用;同时,大模型与数据治理生命周期交互交织,仅采用面向大模型或面向数据治理的工具平台都难以达到期望的效果,亟需研制新的平台工具。


数据架构管理:传统数据架构管理需要预先确定数据需求,然后设计满足该需求的数据组织方式;然而,以大模型为基础的业务体系生命周期通常较短,且数据来源和格式众多,需要研究支持先聚合后组织的数据架构方法,如数据湖和数字对象体系。


数据指标管理:数据治理的目标是提升大模型应用的效能,通过可度量的指标评估数据的应用效果并作为改进和优化的方面,是数据指标管理的主要内容。数据指标可以分为通用指标和业务指标,通用指标用来反映数据本身的特征,业务指标用来评估与业务需求相关的数据特性。


多模态数据管理:大模型的训练数据涵盖结构化数据、文本、图像、音频、视频、分子结构等一系列格式的数据,针对这些多模态数据的存储、权限控制、检索和应用管理是实现数据赋能大模型的重要基础。


数据活动管理:基于大模型的业务体系是典型的数据驱动场景,数据活动贯穿于全流程生命周期,需要采用策略、软件工具对这些数据活动进行管理,支持数据世袭、数据版本维护等。


成熟度与评估管理:结合大模型应用的特点,对数据治理的成熟度水平进行评估,促使组织不断改进策略、过程和工具等。


策略与组织架构管理:数据治理并非仅是信息化部门的内部任务,涉及组织的所有部门,需要得到组织高层的认可和执行,通过业务全流程牵引数据治理工作,并制定相应的策略,必要时需要调整组织架构,确保数据治理工作的可持续性。


3 关键研究内容


面向大模型的数据治理工作是一个系统工程,涉及使命、管理、计算机工程、安全等各方面,需要组织建立全面的体系。本节从计算机科学的角度,提出需要关注的 4 个建设内容,即数据指标设计、多模态数据质量提升、数据合成与智能数据治理平台。


3.1 数据指标设计


数据指标设计是数据治理的重要内容,是评估数据治理效果、改进数据质量提升方法、提升大模型效用发挥的首要手段。从概念上看,数据质量是数据满足用户需求的程度,可以等价于数据质量指标,即一定程度上反映数据质量的好坏。


结合大模型的业务特点及数据质量的评估维度,可以将数据指标分为完整性指标、时效性指标、一致性指标、准确性指标和安全性指标,其中,完整性和时效性指标是通用指标,一致性、准确性和安全性指标是业务指标。


完整性指标:用来度量数据的缺失情况,数据缺失会对大模型产生显著的影响,而在实际应用中,数据可能因为采集装置故障、传输意外等情况出现缺失,因此,有必要研究能够度量缺失程度的指标。


时效性指标:用来度量数据的新鲜程度,过时的数据会导致大模型给出错误的回答和预测;另外,对不同模态和颗粒度数据时效性的度量是需要研究的重要方面。


一致性指标:评估同一客观实体对象在不同数据源或上下文中描述一致的程度;在实践中,对于业务稳定的系统,可以采用本体或标准化的方式来评估并确保数据的一致性,对于业务流程经常变化的情况,可以通过动态本体来评估解决。


准确性指标:用来评估系统中客体的描述与现实一致的程度;准确性问题是数据质量和数据治理中最难处理的内容,一方面,如何获取真实的数据标签是难以解决的问题;另一方面,使用何种度量指标评估数据的准确性也是一直以来的热点和难点问题。


安全性指标:主要用来评估数据在采集、存储、传输和使用过程中是否采用了相应级别的权限控制、审计以及加密等措施,同时,还评估系统是否在数据合规性和处理数据中毒方面有相应的举措。


3.2 多模态数据质量提升


当前,大模型已经在各行业展开了深入的研究和应用,涵盖了自然语言处理、生物医学、金融、数学、机器人等众多领域,这使得大模型处理的数据从传统的结构化数据、文本、图片拓展到了时间序列数据、图数据、基因微阵列数据等数据格式,提升大模型应用效能的关键。


数据质量提升的过程一般包括缺失值填补、特征工程、异常检测、数据增强、实体分辨和冲突消解等过程。


缺失值填补针对数据缺失的情况,通过特征关联或标签学习等方式填补缺失数据,提升数据的可用性。


特征工程通过特征抽取、特征选择、特征融合等方式获得最合适的数据表示方式。


异常检测采用监督或非监督的方式识别数据中的异常值,降低异常数据给大模型带来的负面影响。


数据增强通过已有数据生成相似或相近的数据,解决数据不平衡导致学习算法性能降低的问题。


实体分辨解决同一客观实体存在不同描述的问题,提升数据的准确性。


冲突消解通过冲突检测和消解策略,解决数据中的冲突问题,避免大模型产生不一致预测。


3.3 数据合成


大模型的快速发展使得可用数据越来越少,特别是高质量的可用数据已经成为制约大模型应用的瓶颈。数据合成是解决这一问题的有效途径,数据合成是指通过模型或工程技术生成符合真实分布的新数据。数据合成更加强调生成数据的真实性和合理性,数据增强则聚焦于生成与已有数据相近的数据。


数据合成具有数量、成本以及安全质量可控等方面的优势。


首先,真实数据的获取较为困难,且可用的真实数据数量有限,难以满足大模型的应用需求,而数据合成可以生成满足需求的数据。


其次,真实数据的质量通常不高,需要进行清洗、脱敏、标注、增强等方面的操作,应用成本高昂,数据合成能够直接生成可用的数据,其成本主要在于前期构建模型,后期使用则无须更多的开销。


最后,很多领域的真实数据具有较强的敏感性和安全需求,脱敏操作可能会导致数据的可用性下降,数据合成并非直接使用数据,而是构建满足真实数据分布的模型,从而能够在安全性和质量方面解决传统方法的缺点。


根据采用技术的不同,数据合成可以分为基于模型的方式和基于工程技术的方式。


基于模型的方式构建拟合真实数据分布的模型、算法和流程,生成新的数据,该方法的难点在于构建符合真实需求的模型。


基于工程技术的方式利用领域已有的工程经验或数据形成的软件平台生成数据,如 Matlab、Unreal Engine、AirSim 等,该方法的难点在于解决生成数据与场景需求的符合性问题。


3.4 智能数据治理平台


面向大模型的数据治理流程和步骤较多,涉及了数据、标准、软件工具、业务系统等方面,因此,必须面向大模型应用的特点,研制智能化的数据治理平台,促使数据有效赋能业务。该平台需支持人机交互、模块化构件、全流程快照管理以及智能化集成等特性。

首先,大模型应用还无法实现完全自主化运行,需要进行频繁的人机交互,因此,数据治理平台需要提供友好的人机交互界面,并能够给予必要的提示和标准化检查,降低使用的复杂度。


其次,在离线环境或者边缘计算等场景下,难以部署平台软件进行数据采集、处理和使用,为了确保数据处理规范的一致性和工具的兼容性,数据治理平台的相关功能需要构件化和模块化,支持多平台应用和热插拔,从而提升平台的应用场景,满足用户的个性化使用需求。


由于大模型训练和微调可能需要多次迭代,因此,有必要对关键的过程节点进行备份和存档,即快照生成;另外,为了降低存储开销提升使用效率,对快照进行压缩和快速检索是需要支持的必要功能。


最后,数据治理平台不仅需要能够为基于大模型的业务提供支撑,同时也应当成为智能化的应用方向。在一些研究中,使用智能化的手段,提升数据标准化、数据清洗以及数据管道的自动化构建效能已经成为现实,数据治理平台也应当能够集成各种有效的智能化方法,并通过大模型进行调用,进而提升平台的可用性。


4 结束语


大模型已经成为各行业领域智能化的引擎,大模型的研究和应用成为了热点,高质量数据作为大模型发挥效能的基础,也受到了广泛的关注。然而,传统数据管理的手段难以解决大模型对数据应用带来的挑战,为此,本文在总结大模型数据治理需求的基础上,提出了面向大模型的数据治理框架,剖析了框架的 10 个构成要素,给出需要重点关注的 4 个研究内容。


为了进一步提升数据赋能大模型的作用,未来需要从以下几个方面展开实践:一是要同步落实管理措施与软件平台,从制度和工具层面协同发力;二是要重视体系性和系统性,避免只在部分阶段和流程上应用软件工具,导致数据治理的失败;三是要设计并落实标准化,将有效的方法、流程和模式以标准的形式进行固定,统一组织内部的认知,从而更好地将数据治理工作扎实推进。

暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码