数据源质量评估模型

数据质量评估指标

完整性: 数据集对具体业务对象的覆盖程度,可以从字段和记录两个方面来描述。

  • 记录完整性: 业务需要的数据记录在时间、业务范围内记录是否完整,比如需要上市公司2000以后的年报,需要查看哪些年份没有,哪些股票没有
  • 字段完整性:需要的数据属性是否齐全。

可理解性: 可理解性指标用来表述数据集是否能清晰的反应业务逻辑,字段和取值的具体意义是否明确。可理解性指标有:

  • 存在数据字典/文档
  • 数据字典/文档语义明确
  • 字段取值是否和业务逻辑一致

规范性,用于描述数据在同一维度是否按照统一格式存储

一致性: 用来描述数据在不同维度的连贯性,包括数据集之间的横向连贯性和时间维度的纵向连贯性。一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:

  • ID重合度:在相关数据集中是否存在一个全局的ID,或者不同数据集之间的关联ID是否能一一对应;
  • 属性一致:不同数据集之间,同一个属性的字段名称、取值范围是否一致;
  • 取值一致:不同数据集之间,同个字段的取值范围是否一致、相同情况下的具体取值是否一致;
  • 采集方法一致:数据是否使用相同的工具和方法进行采集;
  • 转化步骤一致:数据的转化过程是否采用相同的方法和工具;

可获得性: 用来描述实际业务需要的数据获取的难易程度,包括采集、清理、转化等多个环节。常用指标有:

  • 易于采集:是否易于采集,采集过程是否简单直接;
  • 易于处理:数据处理过程计算复杂度是否可接受;
  • 合适的存储方式:数据存储结构是否合适,是否便于二次使用;

准确性:数据集是否能够精准无误的反应真是业务情况,准确性是数据质量的重要组成部分。常见指标有:

  • 缺失值占比
  • 错误值占比
  • 异常值占比
  • 数据噪声: 数据流通过程中因数据转化而产生的信息损失,如关键信息加密、四舍五入等。

可靠性: 数据集是否值得信赖,包括数据采集、数据处理过程是否可靠,数据是否能长期维护。常见指标有:

  • 采集方法:有时候对数据的不同定义会导致采集方法的不同,比如页面曝光事件的定义,如果用户刷新了页面算不算第二次曝光?这要根据不同情况来定义,不同的定义其数据采集方式会不相同。
  • 处理方法正确
  • 数据维护方可靠

相关性: 是指数据集中包含的属性是否能很好的描述业务目标,是否能清晰的解答业务问题。

时效性: 时效性可以理解为时间维度的数据相关性,即业务需求的时间范围和数据集表示的时间范围之间的关联程度。比如我们需要分析今年第一季度的某品类销售情况,但数据集是去年第二季度的,这种情况就是极端的时效性差。时效性的常见指标有:

  • 数据更新延迟
  • 数据更新频率

参考资料:

https://zhuanlan.zhihu.com/p/34345593

https://www.chinaz.com/web/2012/1112/281738.shtml

https://help.aliyun.com/document_detail/73660.html