数据正确性验证(造数据篇)

这篇具有很好参考价值的文章主要介绍了数据正确性验证(造数据篇)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

变更记录

记录每次修订的内容,方便追溯。

多行文本 单选 作者 日期
完成文档 V1.0 2023-02-27
V1.1
V1.2

1. 数据质量检测标准

1.1 背景:整理数据质量测试的维度

摘取自国标文档

数据正确性验证(造数据篇)

数据正确性验证(造数据篇)

数据正确性验证(造数据篇)

以上是除了常规的软件质量模型外(软件测试质量六大特性,27项子特性如下图),数据质量的测试维度。

数据正确性验证(造数据篇)

2. 基于大数据测试要求测试需要做什么

2.1 如何基于测试数据处理过程,一层层进行测试

常规数据产品分层如下:

具体如下图:

数据正确性验证(造数据篇)

2.1.1 数据收集层

        1.原始数据采集效率测试--性能(需做到准实时)

                每个版本会记录采集性能极限作对比。

        2.数据完整性校验:通过监控保障

                监控:异常数据以及无法处理的数据人工check,从而提高数据完整性

2.1.2 数据存储层

        1.落库正确性、完整性验证

        2.取数验证

        例如:视频是切片存的,所以取的时候需要拼合,所以需要测试

        3.性能验证

2.1.3 资源管理和服务协调层

        1.单节点资源配置测试 pod

        2.整个空间、队列资源、并行度测试、节点依赖先后执行顺序测试等

        3.弱网测试,删除未删除干净时,是否需要考虑定时任务。

        4.注入异常,混动工程、故障演练,可借助阿里工具ChaosBlade。

        例如执行时,pipeline重启,测试重试机制等。

        限流、服务资源控制在80%等

2.1.4 计算引擎层

        对清洗规则测试

场景:

        爬虫获取运营商用户通话情况、缴费情况

        计算分析层分析出生日、近3个月通话静默天数(1个月打一次电话可能是个小号)

        以上这些指标,对应的计算逻辑需要测试

具体:

        1)需要生日字段做数据处理,这个时候有部分数据生日字段没有,可根据身份证号码或是社保信息中,提取出来,补全这个字段信息。

        2)落库格式统一,例如日期指标。

测试需要做什么:

        1)根据需求构造各类数据

        2)分析判断指标设计是否合理 (例如:指标依赖避免环形关系出现,必填字段需要都给默认值等)

2.1.5 数据分析层

3. 测试痛点:需要手动造数据

基于数据安全考虑,大多数情况下线上数据不允许下载,需要手动造数据测试清洗结果是否符合预期。

痛点

1

不知道造哪些类型的数据

2

很难分析出线上数据具体由哪部分构成(多样性:什么时候出现未预料到的数据,很多时候你不可能提前预判到,构造数据只可能是在现有数据的基础上构造,对于未采集到的数据信息会有滞后性)

3

数据的准确度和可信度(每一层(原始数据初步处理、清洗、计算以及最终出的财务报表等数据)数据处理过程和结果都需要测试验证)

4

当业务横跨多部门多模块,设计多数据库表时,非常依赖测试对项目表关联关系的熟悉程度。

3.1 介入式数据解决方案

方案一:接口造数据

        可能存在的问题:

        1)链路过深

        2)无法保证上游接口数据是没有问题的

        3)上有服务不一定文档(升级)

方案二:SQL造数据

        可能存在的问题:

        1)当表关联关系非常复杂时,无法梳理清楚

方案三:链路跟踪技术ATM——追踪业务流量经过的表,分析出表之间关系

        从对应数据库,找几个例子,建立模板,改变关键信息,建立数据工厂。

3.2 非介入式数据解决方案——数据协调矩阵

1.1 基线数据集做递进式的测试

  • 拿线上3个月内的数据做基线数据集测试

每个版本都以这部分数据做测试,查看数据结果清洗后是否一致。

存在问题:数据集数据可能不完整。

解决方法:所以要做数据协调矩阵,即要夸大数据集,例如扩大到近6个月等。一般测试2-3个周期的数据验证不同版本数据处理结果。

1.2 依赖数据工厂补充已知的异常类数据

  • 保正你的数据清理过程是兼容正常和已知异常数据的场景的。

3.3 智能解决方案

数据正确性验证(造数据篇)

数据正确性验证(造数据篇)

对数据进行自动归类,APM可流量打标

数据正确性验证(造数据篇)

线网复制,对线上数据拉取后做变异处理,脱敏加密,数据格式变异等

数据正确性验证(造数据篇)

多次机器学习归类,再训练演练,回归回溯后,最终预期是使数据可用。

数据正确性验证(造数据篇)

数据可用后,到线上进行渗入演练

数据正确性验证(造数据篇)

验证稳定性,故障演练

具体参考:大数据测试-数据清洗的质量保障 周志强 中国DevOps社区_哔哩哔哩_bilibili文章来源地址https://www.toymoban.com/news/detail-422450.html

到了这里,关于数据正确性验证(造数据篇)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【二分图】 二分图上匹配问题 和 匈牙利算法正确性说明

    本文讨论无权图 思维上没什么难度,但是文字量却比自己想的要多…… 什么是二分图上的匹配?什么是匈牙利算法?   “二分图最大匹配概念、匈牙利算法” 这里引用 Pecco 的介绍。这篇文章写的非常通俗易懂,而且揭示了匈牙利算法(或者说增广路)的本质是“朴素的

    2024年02月13日
    浏览(36)
  • 使用Win10自带的PowerShell命令校验文件和镜像文件的Hash值(MD5、SHA1/256等)正确性

    通常为了保证我们从网上下载的文件的完整性和可靠性,我们把文件下载下来以后都会校验一下MD5值或SHA1值(例如验证下载的Win10 ISO镜像是否为原始文件),这一般都需要借助专门的MD5检验工具来完成。但其实使用Windows系统自带的Windows PowerShell运行命令即可进行文件MD5、S

    2024年02月16日
    浏览(42)
  • 银行卡信息验证API接口:高准确性与稳定性的双重保障

      随着电子支付的普及,银行卡成为了人们生活中不可或缺的一部分。然而,在进行在线支付、网购或其他金融交易时,我们常常会遇到需要验证银行卡信息的情况。为了提高用户体验,保证交易的安全性,银行卡信息验证API接口应运而生。本文将深入介绍一个全面覆盖、准

    2024年03月09日
    浏览(85)
  • 机器学习技术:如何使用交叉验证和ROC曲线提高疾病预测的准确性和效率?

    随着机器学习的普及,评估模型的性能越来越重要。交叉验证和ROC曲线是两种常见的评估模型性能的方法。本文将介绍这两种方法的基本原理和应用场景,并结合实际案例和技术实践,讲解如何使用交叉验证和ROC曲线来提高机器学习模型的性能。此外,文章也将提供一些最佳

    2024年02月11日
    浏览(61)
  • Debezium系列之:记录变更事件

    Debezium 数据更改事件具有复杂的结构,可提供丰富的信息。 但是,在某些情况下,在下游消费者可以处理 Debezium 更改事件消息之前,它需要有关原始数据库更改导致的字段级更改的其他信息。 为了使用有关数据库操作如何修改源数据库中的字段的详细信息来增强事件消息,

    2024年02月09日
    浏览(52)
  • 重要变更 | Hugging Face Hub 的 Git 操作不再支持使用密码验证

    在 Hugging Face,我们一直致力于提升服务安全性,因此,我们将修改 Hugging Face Hub 的 Git 交互认证方式。 从 2023 年 10 月 1 日 开始,我们将不再接受密码作为命令行 Git 操作的认证方式。我们推荐使用更安全的认证方法,例如用个人访问令牌替换密码或使用 SSH 密钥。 近几个月

    2024年02月10日
    浏览(34)
  • Python-解决每次请求响应的验证码都不一样的情况

    还是书接上回,一开始只考虑了怎么破解验证码,而从没想过怎么获取,以为还是那种普通的图片,结果每次刷新返回的都不一样,而且页面源码中也没记录(可能有,但去找的话很耗时间),所以记录一下; 在网上查找了解决办法: 截取验证码(没考虑),先不说别的,

    2024年02月09日
    浏览(36)
  • 小程序中如何查看会员的积分和变更记录

    ​积分是会员卡的一个重要功能,可以用于激励会员消费和提升用户粘性。在小程序中,商家可以方便地查看会员卡的积分和变更记录,以便更好地了解会员的消费行为和积分变动情况。下面将介绍如何在小程序中查看会员卡的积分和变更记录。 1. 找到指定的会员卡。在管理

    2024年02月09日
    浏览(49)
  • 小程序中如何查看会员的余额和变更记录

    ​通过查看会员的余额和变更记录,可以帮助商家更好地管理会员资金,提供更好的服务和用户体验。下面将介绍小程序中如何查看会员的余额以及余额的变更记录。 1. 找到指定的会员卡。在管理员后台-会员管理处,找到需要查看余额和记录的会员卡。也支持对会员卡按卡

    2024年02月09日
    浏览(51)
  • (已解决)关键词爬取百度搜索结果,返回百度安全验证,网络不给力,请稍后重试,无法请求到正确数据的问题

    已解决,使用进行百度搜索,然后爬取搜索结果,请求数据后,返回的是百度安全验证,网络不给力,请稍后重试。无法请求到正确数据。且尝试在header中增加Accept参数还是不行。      在学习过程中,写了一小段练习用的爬取程序,获取百度搜索后的结果,代

    2024年02月08日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包