构建结构化数据的标准化质量评价方法

0

刘国杰 张 群

摘 要:在信息技术迅速发展的今天,结构化数据在企业和组织中扮演着越来越重要的角色。然而,数据质量的好坏直接关系到数据应用的成效和价值。为此,本文提出了一种基于国家标准GB/T 36344-2018的标准化结构化数据质量评价方法,旨在为企业和组织提供一个全面、科学、客观的评价工具。在评价过程中,数据质量评价专家首先获取数据字典,分析数据的基本属性与基本特征、业务应用场景,以此为基础确定评价指标与指标权重。然后,设定每个数据字段的重要性权重并制定具体评价规则。最后,完成数据质量评价并汇总结果。系统会提供一份详细报告,指出数据问题并给出改善建议。本文提出的评价方法更加系统化、科学化,更符合大型企业的实际需求,为企业提供有效的数据评价工具,确保数据质量,充分发挥数据的潜在价值。本方法在一家大型企业中得到实际应用和验证,证明了其有效性和适用性。

关键词:数据质量;标准化;结构化;评价方法

一、引言

随着大数据时代的到来,数据已经成为企业和组织的重要资产。在众多数据中,结构化数据占据了主导地位,它们在各种业务和科研活动中发挥着至关重要的作用。然而,数据的质量直接影响到数据的价值和应用效果。因此,如何评估和提高结构化数据的质量成为当前研究的热点和难点。

数据质量通常涉及多个维度,如规范性、完整性、准确性、一致性、及时性和可访问性等。为确保数据的质量,研究者们提出了许多数据质量评估方法和工具。但是,大多数现有的方法都是基于特定的应用场景或数据类型,缺乏通用性和标准化。此外,数据作为一种资产,其价值不仅取决于数据本身的质量,还与数据的管理和使用方式密切相关。因此,数据质量评估不应仅仅局限于数据内容的检查,还应考虑数据的使用和管理过程。近年来,随着数据科学和机器学习技术的发展,数据质量评估方法也发生了很大变化。一些新的评估方法和技术开始应用于实际的数据质量管理工作,如基于机器学习的异常检测、基于统计学的数据质量评估等。结构化数据质量评估是一个复杂而重要的问题,本文旨在提出一种标准化的结构化数据质量评价方法,希望为数据质量管理提供一种新的思路和工具。

二、数据质量评价是确保数据质量的关键步骤

在大数据不断推动互联网发展和数据驱动决策迈向新台阶的今天,保证数据的高质量显得格外关键。低质量的数据可能会引发错误决策、增加运营成本,甚至导致失去商业机会。因此,标准化的数据评价方法非常重要。国家标准GB/T 36344-2018的发布,为数据质量评价提供了一套统一规范的评价指标,其指标框架如图1所示。

数据质量评价是确保数据质量的关键步骤。过去的研究已经提出了多种数据质量评价方法,这些方法旨在从不同的角度和维度对数据进行评估。例如,一些方法侧重于数据的准确性,而其他方法则侧重于数据的完整性或及时性。此外,还有一些方法考虑了数据的一致性和可比性。尽管存在多种方法,但目前仍然缺乏一个统一的、标准化的方法来评估结构化数据的质量。

近年来,随着结构化数据在各种应用中的广泛使用,如何评估其质量成为一个热门的研究话题。结构化数据通常由预定义的模式或结构组成,如数据库表或CSV文件。与非结构化数据(如文本或图像)相比,结构化数据的质量评价给评估方带来一定挑战的同时也会提供一些机会。例如,结构化数据的一致性和完整性可以通过检查数据模式和约束来评估。此外,结构化数据的质量也可以通过比较不同数据源之间的数据来评估。

综上所述,数据质量和数据质量评价在以数据驱动的经济发展中起着至关重要的作用。为确保数据的高质量,我们需要采用标准化的、系统的方法来评估数据的各个方面。本文提出的标准化结构化数据质量评价方法为此提供了一个新的框架和路径。

三、数据质量评价方法

本文提出的方法是数据评价专家的主观评价与数据质量评价工具相结合的评价方法。数据质量的评价过程包括准备评价数据、分析数据字典与应用场景、确定评价指标与权重、确定字段权重与规则、执行数据质量评价任务、调整评价参数或数据优化,最后编写数据质量评价报告。其中,调整评价参数或数据优化不是必要步骤,可根据实际情况进行,也有可能多次进行。数据质量的评价过程如图2所示。

(一)分析数据字典与应用场景

数据字典是描述数据库中所有对象的集合,包括表、列、数据类型和关系。详细分析数据字典,理解数据结构和内容、数据字段的定义、类型和可能的值范围,这些信息对于后续的数据质量评价至关重要。在评价结构化数据质量时,首先需要获取数据字典,以理解数据的结构和属性。数据字典通常通过企业数据的运维人员获取,在给出数据字典之前,运维人员会进行脱敏处理。获取数据字典后,可以对数据进行初步的分析,例如,确定数据的规模、数据类型的分布和关键字段的存在。

(二)确定评价指标与权重

确定数据评价指标是评价数据质量的关键步骤。根据GB/T 36344-2018国家标准,确定一系列的数据质量评价指标,一级评价指标包括规范性、完整性、准确性、一致性、及时性和可访问性。每个一级指标又包含多个二级指标。评价指标的权重反映不同指标在整体评价中的重要性,需要数据质量评价专家分析数据的基本属性与基本特征、业务应用场景,并以此为基础确定评价指标与指标权重。例如,如果评价的目的是确保数据的准确性,那么准确性相关的指标权重可能会更高。权重的设定可以通过专家评审、历史数据分析或统计方法来完成,其中,层次分析法(Analytic Hierarchy Process, AHP)是常用的确定权重的方法。

(三)确定字段权重与规则

与结构化数据的字段对应的评价规则是评价过程中的核心部分。每个字段都需要有一个或多个与之对应的评价规则。这些规则定义如何对该字段的数据进行评价。例如,一个字段的评价规则可能是检查数据的范围、数据的格式或数据的一致性。设置评价规则时,需要考虑数据的特点、评价的目的和可能面临的数据问题。评价规则的设置通常需要数据评价专家的参与,确保规则的有效性和准确性。

(四)执行数据质量评价任务

由于数据量通常较大,很难由数据质量评价专家进行数据质量评价。因此,需要借助专用的数据质量评价工具进行数据质量评价。数据质量评价工具至少包括被评价数据源接入、数据指标与权重设置、数据字段权重与规则设定、评价任务管理、初步评价报告输出等功能模块。如果数据质量评价发现数据评价结果有问题,或者被评价数据有变化,则需要重复执行以上步骤。

(五)调整评价参数或数据优化

在数据质量评价过程中,评价参数的设定和优化是确保评价结果准确性和真实性的关键步骤。数据评价专家根据评价任务的执行情况,发现评价过程中数据特征和问题,调整优化评价参数。这种调整可能涉及评价指标的权重分配、评价规则的精细化调整,甚至是评价模型的改进。例如,如果在评价过程中发现某一指标与数据质量的实际影响不符,专家可能会降低该指标的权重或重新定义其评价规则。同样,如果某个评价规则过于严格或宽松,导致评价结果与预期存在偏差,专家将对规则进行微调,以更准确地反映数据的真实质量状况。

(六)编写数据质量评价报告

编写数据质量评价报告的目的是为了提供一个数据质量的客观评价结果,帮助识别和解决数据质量问题,从而提升数据的应用价值和支持业务决策。在完成数据质量评价后,数据质量评价专家需要编写一份全面的数据质量评价报告。报告首先概述评价的目的、依据的标准以及采用的评价方法。然后,详细列出各项评价指标及其权重和每个字段的权重以及确定依据。报告需要展示整体评价结果,包括数据的规范性、完整性、准确性、一致性和及时性等详细信息,并对发现的问题进行统计分析,提供针对性的改进建议以及对未来数据质量管理方向的展望。

四、实验与分析

(一)实验环境

为验证本文提出的标准化结构化数据质量评价方法的有效性,我们在某大型企业的实际生产环境中进行实验。实验环境包括一台存储有被评价数据并提供访问接口的服务器和一台配置为8核CPU、32GB RAM和1TB SSD的客户端。其中服务器运行在Ubuntu 20.04操作系统上,数据库管理系统为MySQL 5.7。客户端运行在Windows 10操作系统,采用C#程序设计语言实现。我们选取该企业所包含1个表,47个字段,13326167条数据的结构化数据作为数据集进行数据评价。这部分数据代表企业的主要业务数据,对其数据质量的评价具有重要意义。

(二)实验过程

1.分析数据字典与应用场景

在实验室首先详细分析数据字典以及相关业务信息,这些信息对于后续的数据质量评价至关重要。例如,对于交易数据,我们重点关注数据的及时性和准确性;而对于客户信息,我们则更加重视数据的完整性和一致性。

2.确定评价指标与权重

我们通过分析数据字典与应用场景等确定数据质量评价的指标,在本次实验中选取规范性、完整性、准确性和可访问性四个方面对数据质量进行评价,根据对数据质量的影响程度选取并确定每个二级指标以及权重,其中选取的评价指标如图3所示。

3.确定字段权重与规则

在前面的分析基础上,我们对每个字段的重要性进行细致分析讨论,确定相应的权重与评价规则。对于业务流程中的关键字段,如交易金额、客户身份标识等,我们赋予较高的权重,以反映其在数据质量评价中的重要性。对于辅助性或信息性的字段,同样制定合理的评价规则,设置相对较低的权重。通过精细化的权重分配和规则设定,能够确保数据集的整体质量公正性和全面性。

4.执行数据质量评价任务

执行数据质量评价任务是核心环节。根据前期设定的评价指标和权重,采用自动化工具对选定的数据集进行全面质量评估。系统按照设定的评价规则,对每个字段进行全面分析,评估每个数据元素的合理性和一致性。在评价过程中,特别关注那些对业务决策影响较大的字段。评价完成后,系统自动生成详细的评价报告,列出各项指标的得分情况。

5.调整评价参数或数据优化

调整评价参数和数据优化至关重要。通过实际评价过程中发现的问题,细化和调整评价参数,如修正权重分配,优化评价规则,更精确地反映数据的实际质量状况。

6.编写数据质量评价报告

在完成数据质量评价后,编制详细的评价报告,总结评价过程,揭示数据质量的详细情况,并指出具体的问题。

(三)实验分析

实验数据共1张表格,记录总数量共计13326167条,字段总数量共计47个,数据元素总数量共计626329849个,其中元素填充率76.88%,空值率23.12%,非空元素数481522388个,空值元素数144807461个。显然,选填字段是造成空值的主要原因,在结果计算时忽略选填字段的空值。其中符合规则元素数468617588个,占97.32%,不符合规则元素数12904800个,占2.68%。数据质量问题主要表现为数据格式不符合规则、数据内容不准确、元数据不规范及空值问题等。

五、结论

本文针对结构化数据质量评价的需求,提出了一种基于国家标准GB/T 36344-2018的标准化评价方法。通过对数据字典的获取、评价指标的确定、权重的设定以及与字段对应的评价规则的设置,为企业或组织提供了一个系统、科学的评价方法。该方法在某大型企业的实际应用中得到了验证,能够发现数据的质量问题,并提供了相应的改进建议。该方法的主要贡献在于:参照国家标准,确保评价的权威性和客观性;采用专家评审的方式确定评价指标和权重,确保评价的科学性;采用工具对数据质量进行评价并汇总,确保评价的准确性。

虽然本文提出的数据质量评价方法在实际应用中取得了良好的效果,但仍然存在一些需进一步研究和改进的地方:目前本研究主要针对结构化数据展开,未来可以考虑将其扩展到半结构化和非结构化数据的评价;评价规则的设置仍然依赖于人工,未来可以考虑引入人工智能技术,自动发现数据的规律并生成评价规则。未来还可考虑引入动态评价机制,实时监控数据的质量,为企业提供实时的数据质量报告。数据质量评价是一个长期、复杂的工作,需要开展跨学科合作,不断拓展研究广度和深度,希望能为后续的研究提供一些启示和参考。

参考文献

[1] 张宁, 袁勤俭. 数据质量评价述评[J]. 情报理论与实践, 2017, 40(10):135-139. 

[2] 刘金晶, 王梅. 大数据下的数据质量评价指标构建实践[J]. 计算机技术与发展, 2019, 29(10):46-50. 

[3] Fama, Eugene F, Kenneth R. French. Multifactor explanations of asset pricing anomalies. The journal of finance 51. 1 (1996): 55-84. 

[4] Kalincik, Tomas. Data quality evaluation for observational multiple sclerosis registries. Multiple Sclerosis Journal 23. 5 (2017): 647-655. 

[5] 全国信息技术标准化技术委员会(SAC/TC 28). GB/T 36344-2018信息技术数据质量评价指标.2018-06-07. 

[6] 刘桂锋, 聂云贝, 刘琼. 数据质量评价对象、体系、方法与技术研究进展[J]. 情报科学, 2021, 39(11):13-20. 

[7] 蔡莉, 梁宇, 朱扬勇等. 数据质量的历史沿革和发展趋势[J]. 计算机科学, 2018, 45(04):1-10. 

[8] 雷明涛, 何赟. 基于数据字典的自适应的对象化数据库访问技术研究[J]. 微电子学与计算机, 2015, 32(10):21-25. 

(作者分别系中国电子技术标准化研究院信息技术研究中心博士后,中国电子技术标准化研究院信息技术研究中心副主任) 

评论被关闭。