基于数据模型与数据主人制的数据质量管理模式研究

0

 刘文涛 李雨霏 李 飞 刘海鸥(国家电网有限公司大数据中心)

 摘 要:随着数字经济时代的到来,数据作为一种新型生产要素,在企业运营、决策和创新等方面的重要性日益凸显。文章从数据质量管理角度出发,深入探讨了数据模型与数据主人制建设的关键作用,详细介绍了数据模型全过程管理的实施方法,提出了基于数据主人的数据治理长效机制。文章认为,数据模型与数据主人制共同保障了数据的准确性和可靠性,能有效促进数据质量管理能力提升,助力企业数字化转型和创新发展。

关键词:数据要素;数据质量管理;数据模型;数据主人制 

 一、数据质量是发挥数据价值的重要基础

在数字化浪潮席卷全球的今天,数据作为一种新型生产要素,其重要性日益凸显。近几年,国家及地方政府出台了一系列指导政策,旨在推动数据要素市场高质量发展。2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,提出构建数据基础制度体系,促进数据合规高效流通使用。2023年10月,国家数据局正式挂牌,国家数据局等17个部门于2024年1月联合印发《“数据要素×”三年行动计划(2024—2026年)(征求意见稿)》,为企业在国家大数据战略机遇下可持续发展指明了方向。

面对全球化的竞争环境和复杂的市场变化,越来越多的企业认识到数据要素的作用和价值,大力推进数字化转型,数据已成为企业驱动新质生产力发展的动能源泉。随着数据的汇集、加工和共享应用,数据所蕴含的价值逐渐由量变转为质变,企业的经营决策也由“以经验为主”向“数据驱动”转变。在此过程中,数据质量的重要性日益凸显,直接影响到数据的有效使用及潜在价值的充分发挥。高质量的数据能够为企业提供准确、及时和全面的信息,支持更加精准的市场分析、更有效的决策形成和更优化的资源配置。因此,企业需高度重视数据质量管理,提升数据质量水平,盘活企业数据资产,激发数据要素价值。

高质量的数据能够为企业提供准确、及时和全面的信息,支持更加精准的市场分析、更有效的决策形成和更优化的资源配置。图/中新社 

二、数据模型、数据主人制对企业数据质量管理的作用

数据是按一定的数据结构来组织、描述和存储的,其质量提升方法可从数据结构和存储内容两个方面进行考量。其中,数据模型和数据主人制在数据质量管理中分别扮演着重要角色。数据模型以数据结构为管理对象,确保数据存储结构清晰、关系明确、标准统一;数据主人制聚焦数据存储内容管理,保障数据的准确性、完整性、一致性以及合规性。两者各有侧重,但殊途同归,即共同为数据质量提升提供保障。

(一)数据模型

数据模型是现实世界数据特征的抽象和表示。通过规范化定义与标准化,以及数据之间的关联和约束规则,数据模型为企业提供了一种结构化的数据管理方式。特别是作为跨部门、跨系统数据集成的框架,数据模型在保障企业内部数据一致性、规范性和可共享性等方面发挥着不可替代的作用。

第一,保障数据一致性。数据模型通过确立统一的数据定义、格式和命名规范,确保企业所有系统和业务部门对数据理解的一致性,避免因理解歧义而导致的数据错误。此外,数据模型通过建立明确的数据规则和约束条件,如数据域值范围、数据类型、必填字段等,进一步强化对数据一致性的维护。

第二,减少数据冗余。数据模型通过数据库规范化实施(如第一范式至第三范式),合理设计实体关系,利用主键确保数据唯一性,通过外键在表间建立逻辑关系,避免数据在多个位置复制存储,从而有效减少数据冗余的发生。

第三,促进数据共享。跨部门、跨系统间的数据交换和整合是企业常见需求。数据模型作为统一的语言,通过清晰定义数据转换规则,促进不同来源的数据整合与标准化,确保数据在不同部门、系统间准确传递,打通企业“数据孤岛”。

(二)数据主人制

数据主人制通过识别数据管理工作的责任人,强调数据管理的责任和义务。数据主人负责数据产生、收集、处理、维护、使用、消亡的全生命周期管理,帮助企业提升数据质量和数据治理效率,形成全员治理的数据管理氛围。

第一,源端数据质量提升。数据主人负责数据的生产、传输、存储、应用等全环节,通过提升数据主人数据采集录入能力,有效提升数据采集录入的准确性、完整性和一致性,显著减少数据错误、丢失及重复录入等问题。

第二,数据治理效率提升。数据主人制将数据所有权和相关责任明确分配给数据主人,使每个数据主人都能清晰地了解其所辖数据范围,避免当数据问题出现时产生责任不明、互相推诿的情况,有助于精准划分数据流程和决策权限,简化数据治理操作流程,提高数据治理的成效。

第三,强化数据主人翁意识方面,数据主人制要求“数据主人”了解数据在业务决策中的重要作用,并在日常工作中始终保持对数据工作的关注度,在企业内部营造重视数据质量和数据价值的氛围,推动形成数据驱动的企业数字化转型文化。

三、建立数据模型“设计-评审-验证-发布-监测”全过程管理流程

中国银保监会2022年发布的《关于银行业保险业数字化转型的指导意见》要求银行保险机构大力推进业务经营管理的数字化转型,明确提出对模型开发、验证、部署、评价、退出进行全流程管理。对数据模型规划、设计、实施、变更等进行全过程管理,能够确保其准确反映业务需求,提高开发效率,便于后期模型的维护和扩展。

在实际应用中,按照“事前规范设计、事中核查验证、事后跟踪评价”思路,将数据建模过程划分为模型设计、模型评审、应用验证、动态发布、生产环境监测五大环节进行落地实施管理。

(一)模型设计

企业需制定统一的逻辑模型设计规范、物理模型设计规范以及物理模型遵从逻辑模型转换规则等系列标准规范,这些规范作为模型设计应用需要遵循统一的规则以及模型审查的标准依据,以保障模型设计质量和规范性。

逻辑模型设计应基于业务需求,优先与已有数据模型进行映射匹配分析,对于满足业务需求的实体类,应直接引用;对于部分满足需求的实体类,进行继承或弱相关扩展;对于完全不满足的,根据业务需要创建新的实体类。物理模型应按照逻辑模型进行映射转换设计,确保逻辑模型与物理模型的一致性。需注意的是,由于逻辑模型使用面向对象模型,而物理模型通常采用关系模型,因此还需要对物理模型转换应遵循的规则作出约束。

(二)模型审查

模型审查可采用分批次集中评审方式,在积累了一定的模型设计成果并具备评审条件的基础上,适时组织模型评审,审查逻辑模型和物理模型成果的质量与规范性。

模型审查主要包括逻辑模型和物理模型两部分。逻辑模型审查通常为专家联合审查,由业务专家、模型专家、模型设计及管理人员等各方共同参与,主要审查逻辑模型设计的规范性、业务覆盖度等。当涉及跨域模型时,还需进一步分析跨域设计融合度及典型跨域数据贯通场景的业务支撑情况等。物理模型审查可依托核查工具进行校验,基于物理模型设计转换规则,核查物理模型设计的规范性、映射遵从度以及表间关系等。

(三)应用验证

通过审查的模型应在实际生产或测试环境中进行验证测试,并结合验证测试反馈情况持续优化迭代,确保其最终能准确满足业务需求。一般可从应用场景典型性、数据可接入性以及模型可应用性等角度,选取典型业务场景进行应用验证。经充分应用验证和性能稳定的数据模型方可正式封版,具备企业级发布条件。

(四)动态发布

基于工具对通过评审且验证稳定的模型进行动态发布,便于模型设计人员、开发人员等及时查询和获取最新版本模型,并为后续模型应用核查、监测、评价提供依据。

模型发布主要包含逻辑模型、物理模型及标准代码等内容。可采用“动态发布小版本、阶段升级大版本”策略,结合模型质量情况分批次纳入小版本发布范围,并根据小版本累积情况适时进行大版本更迭。在发布新版本模型时,需注意做好模型版本的管理和维护,详细记录变更内容、版本号等相关信息。

(五)生产环境监测

为促进模型有效应用、管理和维护,还需对物理模型进行持续跟踪评价,保障模型在运行阶段与设计阶段的一致性。按照物理模型表及字段一致性核查规则,基于模型核查工具,从运行态与设计态物理模型一致性、物理模型数据接入情况等方面进行常态监测,持续评估发布后模型实际应用情况。同时,针对业务变化、需求变更、模型设计缺陷等导致的模型变更需求,应做好模型变更管控。模型变更由业务应用方模型设计人员发起,由模型管理人员进行评估和审核,必要时应组织专家评审。

四、建立基于数据主人制的数据质量治理长效机制

数据主人制通过明确数据表、字段、记录的“数据主人”,厘清数据与岗位、人员之间的关系,健全数据责任管理体系,推动企业全员树立数据治理意识,提升企业数字化管理能力。通过数据主人精准认责、增量数据管控、存量数据治理以及履职成效评价的实施路径,实现数据主人制工作的常态化运转,并建立相应的保障机制,充分发挥其价值。

(一)数据主人认责

数据主人认定包括数据主人识别、确认、发布、变更及退出等全过程,旨在明确数据主人的工作职责与要求,确保数据主人信息实时更新,为其提供精准、高效的服务。

一是数据主人认定。充分结合企业各业务领域数据特征,溯源业务数据与数据主人的关联关系,基于业务流程流转及责任划分认定数据主人。例如,设备领域的设备基础数据、设备缺陷/隐患数据、作业数据等,将设备的运行维护人员认定为数据主人;营销领域的客户基本数据、合同数据、结算数据认定则由客户经理担任数据主人。

二是数据主人信息发布。通过线上、线下多渠道发布数据主人清单,常态化更新数据主人资产范围、治理任务等,实现数据主人“知责尽责”。

三是数据主人变更与退出。企业业务管理变革、人员调整、业务系统更新迭代等均会导致数据主人变动。需明确数据主人变更管理流程,完整交接数据主人岗位职责、数据范围、治理任务等,及时更新维护数据主人清单,确保数据管理工作“无缝衔接”。

(二)增量数据质量管控

通过管理和技术手段,提升数据主人规范化录入水平,对源端业务系统数据采录环节进行校验,从源头管控数据质量,避免新产生数据“带病入库”。

一是制定数据主人数据采录规范。根据数据准确性、完整性、一致性、及时性、唯一性、有效性等维度,制定数据质量问题高发场景数据采集录入指导手册,并面向数据主人印发,提供统一规范化参考。

二是从数据质量管理视角优化业务流程。结合数据主人生产、管理职责划分,在数据产生阶段增设数据主人督办和核实环节,将数据采录标准和质量要求融入业务活动,加强源端数据流程管控。

(三)存量数据质量治理

建立直达数据主人的数据质量问题工单机制,避免数据质量问题清单“撒网式”下发,提升数据质量问题治理效率,形成常态化数据质量治理运营管理模式。

一是数据质量核查规则制定。由业务部门提出数据质量需求及标准,明确相应的业务逻辑;由数据管理部门明确涉及数据表、字段对应的业务要求,制定数据质量核查规则,并统筹构建数据质量规则库及配套管理机制。

二是数据质量问题核查与派发。遵循数据质量规则,基于管理工具常态核查数据质量,定期形成问题清单,通过数据质量问题与数据主人自动关联匹配,实现工单形式的直接派发。

三是数据质量问题治理。数据主人根据数据质量问题工单进行整改,工具校验无误后,数据质量问题工单自动关闭。

(四)数据主人制成效评估

通过数据主人制工作成效评估,一方面通过选树优秀数据主人单位及个人,激发各层级数据主人的数据治理能动性,进一步培育企业数据治理文化;另一方面验证数据主人制方法科学性,推进数据主人制管理体系迭代提升。

中国首个零碳数据中心——中国电信(国家)数字青海绿色大数据中心内,工作人员在智慧调度中心工作。图/中新社 

一是制定数据主人制评估方法。建立涵盖过程评估和成效评估的数据主人制评估方法,从数据主人履责及价值发挥两个维度,制定数据可用率、治理及时率等评估指标,量化反映数据主人的工作质效,推动数据主人制有效落地。

二是开展数据主人制成效评估。根据数据主人认责、质量问题治理等工作开展情况,按照组织和个人维度,定期评估数据主人履职情况,选树数据主人制标杆单位及个人,形成以评促改、以评促建、以评促管的数据主人制长效生态。

五、结语 

综上,数据模型与数据主人制共同保障了数据的准确性和可靠性,促进了企业数据质量管理能力的提升。数据模型通过描述数据结构及关联关系,提供了数据的参考分类框架、关键实体与关系的定义。在指导应用级模型设计与应用的同时,规范数据流转中数据交互标准,支撑跨系统、跨专业数据共享,是数据分析应用和数据资产探索的基础性工作。数据主人制则以数据定源定责为核心,将数据模型内存储的数据进一步明确到人,基于数据主人的精准认定,建立“发现–认责–整改–评价”的数据治理闭环机制,确保数据在流转过程中得到有效治理与管理。

数据质量管理是一项系统性、综合性工作,不仅涉及技术的先进性和适用性,更强调运营模式的转变、治理流程的优化以及人员能力的提升。随着技术的不断进步和业务的持续发展,企业还需要不断创新数据管理方法,完善数据治理机制,培养具备数据思维和数据技能的专业人才,持续提升数据质量水平,优化数据治理实践,为实现数字化转型和可持续发展提供坚实保障。

(刘文涛系国家电网有限公司大数据中心高级工程师;李雨霏系国家电网有限公司大数据中心助理级工程师;李飞系南京南瑞信息通信科技有限公司中级工程师;刘海鸥系北京国网信通埃森哲信息技术有限公司初级工程师) 

Research on Data Quality Management Mode Based on Data Model and Data Ownership

Liu Wentao Li Yufei Li Fei Liu Haiou

Abstract: With the advent of the digital economy era, the importance of data as a new type of production factor in enterprise operations, decision-making and innovation is increasingly prominent. The article starts from the perspective of data quality management, deeply explores the key role of data model and data ownership construction, introduces the implementation methods of data model full process control, and a long-term mechanism for data governance based on data ownership. The article believes that data models and data ownership jointly ensure the accuracy and reliability of data, effectively enhance data quality management capabilities, and assist enterprises in their digital transformation and innovative development.Keywords: Data Elements; Data Quality Management; Data Model; Data Ownership

评论被关闭。