数据正确性验证（造数据篇）-Toy模板网

这篇具有很好参考价值的文章主要介绍了数据正确性验证（造数据篇）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

记录每次修订的内容，方便追溯。

摘取自国标文档

数据正确性验证（造数据篇）

以上是除了常规的软件质量模型外（软件测试质量六大特性，27项子特性如下图），数据质量的测试维度。

数据正确性验证（造数据篇）

常规数据产品分层如下：

具体如下图：

数据正确性验证（造数据篇）

2.1.1 数据收集层

1.原始数据采集效率测试--性能（需做到准实时）

每个版本会记录采集性能极限作对比。

2.数据完整性校验：通过监控保障

监控：异常数据以及无法处理的数据人工check，从而提高数据完整性

2.1.2 数据存储层

1.落库正确性、完整性验证

2.取数验证

例如：视频是切片存的，所以取的时候需要拼合，所以需要测试

3.性能验证

2.1.3 资源管理和服务协调层

1.单节点资源配置测试 pod

2.整个空间、队列资源、并行度测试、节点依赖先后执行顺序测试等

3.弱网测试，删除未删除干净时，是否需要考虑定时任务。

4.注入异常，混动工程、故障演练，可借助阿里工具ChaosBlade。

例如执行时，pipeline重启，测试重试机制等。

限流、服务资源控制在80%等

2.1.4 计算引擎层

对清洗规则测试

场景：

爬虫获取运营商用户通话情况、缴费情况

计算分析层分析出生日、近3个月通话静默天数（1个月打一次电话可能是个小号）

以上这些指标，对应的计算逻辑需要测试

具体：

1）需要生日字段做数据处理，这个时候有部分数据生日字段没有，可根据身份证号码或是社保信息中，提取出来，补全这个字段信息。

2）落库格式统一，例如日期指标。

测试需要做什么：

1）根据需求构造各类数据

2）分析判断指标设计是否合理（例如：指标依赖避免环形关系出现，必填字段需要都给默认值等）

2.1.5 数据分析层

基于数据安全考虑，大多数情况下线上数据不允许下载，需要手动造数据测试清洗结果是否符合预期。

痛点
1	不知道造哪些类型的数据
2	很难分析出线上数据具体由哪部分构成（多样性：什么时候出现未预料到的数据，很多时候你不可能提前预判到，构造数据只可能是在现有数据的基础上构造，对于未采集到的数据信息会有滞后性）
3	数据的准确度和可信度（每一层（原始数据初步处理、清洗、计算以及最终出的财务报表等数据）数据处理过程和结果都需要测试验证）
4	当业务横跨多部门多模块，设计多数据库表时，非常依赖测试对项目表关联关系的熟悉程度。