数据质量评估指标
完整性: 数据集对具体业务对象的覆盖程度,可以从字段和记录两个方面来描述。
- 记录完整性: 业务需要的数据记录在时间、业务范围内记录是否完整,比如需要上市公司2000以后的年报,需要查看哪些年份没有,哪些股票没有
- 字段完整性:需要的数据属性是否齐全。
可理解性: 可理解性指标用来表述数据集是否能清晰的反应业务逻辑,字段和取值的具体意义是否明确。可理解性指标有:
- 存在数据字典/文档
- 数据字典/文档语义明确
- 字段取值是否和业务逻辑一致
规范性,用于描述数据在同一维度是否按照统一格式存储
一致性: 用来描述数据在不同维度的连贯性,包括数据集之间的横向连贯性和时间维度的纵向连贯性。一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。常见的一致性指标有:
- ID重合度:在相关数据集中是否存在一个全局的ID,或者不同数据集之间的关联ID是否能一一对应;
- 属性一致:不同数据集之间,同一个属性的字段名称、取值范围是否一致;
- 取值一致:不同数据集之间,同个字段的取值范围是否一致、相同情况下的具体取值是否一致;
- 采集方法一致:数据是否使用相同的工具和方法进行采集;
- 转化步骤一致:数据的转化过程是否采用相同的方法和工具;
可获得性: 用来描述实际业务需要的数据获取的难易程度,包括采集、清理、转化等多个环节。常用指标有:
- 易于采集:是否易于采集,采集过程是否简单直接;
- 易于处理:数据处理过程计算复杂度是否可接受;
- 合适的存储方式:数据存储结构是否合适,是否便于二次使用;
准确性:数据集是否能够精准无误的反应真是业务情况,准确性是数据质量的重要组成部分。常见指标有:
- 缺失值占比
- 错误值占比
- 异常值占比
- 数据噪声: 数据流通过程中因数据转化而产生的信息损失,如关键信息加密、四舍五入等。
可靠性: 数据集是否值得信赖,包括数据采集、数据处理过程是否可靠,数据是否能长期维护。常见指标有:
- 采集方法:有时候对数据的不同定义会导致采集方法的不同,比如页面曝光事件的定义,如果用户刷新了页面算不算第二次曝光?这要根据不同情况来定义,不同的定义其数据采集方式会不相同。
- 处理方法正确
- 数据维护方可靠:
相关性: 是指数据集中包含的属性是否能很好的描述业务目标,是否能清晰的解答业务问题。
时效性: 时效性可以理解为时间维度的数据相关性,即业务需求的时间范围和数据集表示的时间范围之间的关联程度。比如我们需要分析今年第一季度的某品类销售情况,但数据集是去年第二季度的,这种情况就是极端的时效性差。时效性的常见指标有:
- 数据更新延迟
- 数据更新频率
参考资料:
https://zhuanlan.zhihu.com/p/34345593