文档库

最新最全的文档下载
当前位置:文档库 > 数据质量评测方法与指标体系

数据质量评测方法与指标体系

数据质量评测方法与指标体系

数据质量评测方法与指标体系

中国科学院数据应用环境建设与服务

数据质量评测方法与指标体系

(征求意见稿)

中国科学院数据应用环境建设与服务项目组

2009 年9 月

前言本规范是“中国科学院数据应用环境建设与服务”之标准规范建设成果之一。本规范由中国科学院计算机网络信息中心科学数据中心提出并归口。本规范由中国科学院计算机网络信息中心科学数据中心负责起草。

目录

1 范围..........................................................................................................

2 规范性引用文件................................................................................................

3 应用..........................................................................................................

4 术语..........................................................................................................

5 数据质量评测制度..............................................................................................

6 数据质量评测原则..............................................................................................

6.1 科学性原则 (5)

6.2 客观性原则 (5)

6.3 系统性原则 (5)

6.4 可操作性原则 (6)

6.5 针对性原则 (6)

6.6 引导性原则 (6)

7 数据质量评测一般流程..........................................................................................

7.1 数据质量需求分析 (7)

7.2 确定评价对象及范围 (7)

7.3 选取数据质量维度及评价指标 (7)

7.4 确定质量测度及其评价方法 (8)

7.5 运用方法进行评价 (8)

7.6 结果分析及评级 (9)

7.7 质量结果及报告 (9)

8 数据质量评价主体的要求........................................................................................

9 数据质量指标体系...............................................................................................

9.1 数据质量结构 (10)

9.2 主要数据质量指标 (11)

9.2.1 基本层 (12)

9.2.2 准则层 (13)

9.2.3 评价指标选取的基本要求 (16)

9.2.4 评价指标的筛选和权重 (16)

9.2.5 评测指标的冲突处理原则 (17)

10 数据质量评测方法...........................................................................................

10.1 定性方法 (18)

10.1.1 第三方评测法 (19)

10.1.2 用户反馈法 (19)

10.1.3 专家评议法 (20)

10.2 定量方法 (20)

10.2.1 访问量统计 (20)

10.2.2 计算机辅助检查 (21)

10.3 综合方法 (21)

10.3.1 层次分析法 (21)

10.3.2 缺陷扣分法 (26)

数据质量评测方法与指标体系

1 范围

本规范明确了用于中国科学院数据应用环境建设与服务项目中数据(资源)质量评测的一般方法与数据质量指标体系的建立方法。

本规范所提供的流程、方法和指标可适用于中国科学院数据应用环境建设与服务项目中建库单位内部的产品质量评价,日常统计监测制度,以及专家委员会领导下的项目质量检查。本规范提供的评测方法与指标体系适用于数据资源(包括中间产物),不包括对数据生产与服务过程的评测。

2 规范性引用文件

下列文件对于本文件的引用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

TR‐REC‐061 数据应用环境建设与服务标准规范框架

3 应用

本规范所提供的流程、方法与指标均为通用性内容,意在面向不同规模、不同学科背景和不同数据类型的各类数据库提供适应性,在执行过程中评测方可根据实际情况适当增删评测流程,并决定具体的指标体系和采样方法。

4 术语

本规范所使用之术语遵循《TR‐REC‐061 数据应用环境建设与服务标准规范框架》第七部分的约定。

5 数据质量评测制度

为确保科学数据信息资源管理与使用的有效与安全,最大限度保障投资者的利益与建设者的劳动,促进科学数据资源的共享利用,“中国科学院数据应用环境建设与服务”项目要求项目内数据库应建立数据质量评测制度。

“中国科学院数据应用环境建设与服务”项目资助建设的数据资源,应在项目结题前达到本规范提出的质量要求,并接受项目质量检查。

此外,建库单位应当根据具体情况适当开展以本标准为依据的日常数据质量监测统计。

6 数据质量评测原则

科学数据质量评价应注重以下原则:

6.1 科学性原则

质量评价的结果应能正确反映数据资源的质量状况。主要体现在正确的质量指标选择,以及采用科学合理的评价方法等方面。评价必须有一定的理论作为基础,但又不能够脱离实际。另外,科学性还反映适度的简单,评价不可能穷尽所有因素,也不能过于简单。

6.2 客观性原则

评价应是符合实际、客观可信的。评价指标的选择须考虑当前数据资源环境的总体水平,反映出不同学科领域的差异。

6.3 系统性原则

由于评价对象的广泛性、复杂性、必须使用若干指标来衡量,同时指标间可能相互联系、相互制约。但是,在评价中,每个指标又必须是独立的,不互相包

容的,需考虑指标的层次性、系统性,避免指标间冲突。

6.4 可操作性原则

科学合理的评价体系应该是可行的、操作方便的,指标的设计避免过于繁琐,还要考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性,注意选择能够反映科学数据质量状况的综合指标和具有代表性的指标。

6.5 针对性原则

科学数据资源种类繁多,数据积累具有续性,各种资源除了具有与其他资源相同的共性之外,也具有其自身的特殊性。数据质量评价应能充分考虑各类科学数据资源所特有的类型特征并能将其揭示出来,要在指标的权重和分值上予以区分,以体现其针对性的导向作用。

6.6 引导性原则

进行科学数据质量评价,目的在于了解科学数据资源的质量情况,为有关的取舍提供判断依据,以帮助用户快速选择有针对性的信息。因此,必须以方便专业人员快捷而有效的选择和获取有价值的信息资源为导向。

7 数据质量评测一般流程

科学数据质量评价过程是评价者将数据质量评价程序应用于目标数据或数据集并最终获取评价对象质量状态的一系列步骤。本规范提出科学数据质量评价的一般流程,具体于一个具体的执行过程中根据数据对象或学科背景有所不同仍可根据具体情况适当增删。

科学数据质量评价包括以下一般流程:

数据质量评测方法与指标体系

数据质量评测一般流程

数据质量评测过程是一个迭代过程,各个过程的先后顺序仅表达阶段活跃的大致顺序,根据实际执行情况的好坏决定,一些过程可能需要重复执行。

7.1 数据质量需求分析

对科学数据的数据质量评价是以用户为中心进行的数据质量评价。数据需求是人们在各项实践活动过程中,为解决所遇到的问题而产生的对数据的不足感和求足感。数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点,因此,必须首先了解用户针对特定数据资源的需求特征才能建立针对性的评价指标体系。

7.2 确定评价对象及范围

确定评价对象及其范围,评价对象既可以是数据项也可以是数据集。

7.3 选取数据质量维度及评价指标

数据质量维度是进行质量活动中客体的具体质量反映,如正确性、准确性等,它是控制和评价数据质量的主要内容,因此,首先,要确定影响质量维度的因素有哪些,如人员素质、设备、设施等,必要时,要将这些质量影响因素在评价报告中进行分别说明。对于有些影响多个质量维度的因素,应在具体情况下根据需

要进一步细化其影响因素,或针对进一步细化目标环节在确定质量行为中的影响因素。另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。

在此阶段要注意指标之间避免冲突,同时也要注意新增评价指标的层次、权重问题,以及与其它同层次指标的冲突问题。对三级评价指标的选择可根据评价对象的类别、评价要求进行量化处理,必要时可进行计量评价法。以当前技术条件无法量化的质量维度可适当使用具有相关性的替代指标。

7.4 确定质量测度及其评价方法

数据质量评价在确定其对象范围后,应该根据每个评价对象的特点,确定其测度及实现方法,对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。常用定性方法和定量方法,前者采用权重打分等方法进行,后者依据信息生产各阶段的质量规范一级缺陷判据进行。

7.5 运用方法进行评价

就是根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评价对象的质量应当由多个质量维度和三级评价指标的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考。多个质量维度和三级评价指标的组合能提供更加丰富的信息,故对某数据质量范围限定的信息,应提供多个质量维度和三级评价指标的综合测量。

数据质量评测过程中应保证所采用的方法的正确和客观,尽量避免增加质量评价的干扰因素,最大程度的借助计算机及网络技术的自动化处理实现,追求全面客观的反映数据质量的真实情况。特别对于定量的质量维度,要确定科学的定量测量的指标和方法,质量测量应当保证其所涉及的数据边界范围、系统参数等的正确和完备性。

7.6 结果分析及评级

评测后要对评测结果进行分析:

·对评价目标与结果进行对比分析,确定是否达到评价指标;

·对评价的方案的有效性进行分析,确认是不是合适等。之后,根据评价结果确定对象的质量评价,如需要,可根据评价结果鉴定质

量级别。确定评价对象的质量级别是建立在相应的质量分级方案基础上的,该分级方案是根据相应的质量规范或用户的需求确定的,也是判断数据质量成熟度的重要依据。

7.7 质量结果及报告

质量评价结果和评测报告是所有科学数据质量评价项目及其评测结果的合集。

在完整的数据质量评价结果和报告中,应该包括全部上述内容。此外,在数据质量评价报告中还应该把据此进行的评价过程的操作做出完整的记录,包括存在的质量级别的内容确定等。

8 数据质量评价主体的要求

评价主体是否具有专业的评价知识和科学的方法,对评价结果具有很大的影响。本规范认为,数据质量评价实施方应达到如下要求,评估结果才能被专家委员会认可:

·评估组领导者必须是专家委员会认可的专家委员会委员;

·评估组至少应有四人;

·工程经验:整个小组在被评估学科领域总共至少有10 年的工作经验;

·管理经验:整个小组总共至少有10 年管理经验;

·被评估组织过程的相关领域,至少有两位相关专家;

·评估小组成员不能是参加评估项目的管理者,其直接管理者或其他利益相关人员。

9 数据质量指标体系

质量维度是指数据满足用户要求和使用目的的基本质量特性,是一个数据约束的类型,如完整性、一致性等。

数据质量是一个多维度的概念,可能涉及数据产品及其生产服务过程的多个方面,本身不可测度。一般而言,对数据质量的认识通过将其分解为多个质量维度,并逐个识别实现。

数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点。当前普遍的观点认为,数据质量要素受行业领域、数据类型和应用目的等因素的影响极大,不存在面向所有学科领域和资源类型的普适性数据质量指标体系,但针对一个具体行业背景下的特定数据类型,建立一组受到公众认可的质量维度和指标体系并指定其采集方法是完全可行的。

值得注意的是,数据质量的总体水平往往与其在质量因素中的短板关系更加密切,而对个别质量维度的测量可能不能正确反映数据资源的质量水平,在质量评价活动中质量指标体系的建立应在保持可行性的前提下尽可能周全。

9.1 数据质量结构

数据质量的结构特性学术上目前仍无定论,为出于便于管理的需要,本规范根据科学数据以及质量需求的特征,将数据质量评价要素划分为基本层、准则层和指标层三层。