MySQL大量脏数据,如何只保留最新的一条?

这篇具有很好参考价值的文章主要介绍了MySQL大量脏数据,如何只保留最新的一条?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

因为系统的一个Bug,导致数据库表中出现重复数据,需要做的是删除重复数据且只保留最新的一条数据。

具体场景是这样的

有张订单关联额外费用表,而且一个订单号(order_no)记录只能关联同一个费用(cost_id)一次,但是数据库中出现了同一个订单号关联同一个费用n次

当然有人会说上面的问题我们可以建一个 order_no + cost_id 的组合唯一索引,这样就算代码有bug但至少数据库表中不会有脏数据。

似乎这样就可以了,然而事情并没有那么简单。

因为我们表中的数据在删除的时候不会真的的删除,而是采用逻辑删除,会有一个 deleted 字段使用0,1标识未删除与已删除。

当然 我们也可以考虑将 order_no + cost_id + deleted 组合成一个联合唯一索引。

这样就ok了吗?

其实会有一个新的问题,就是如果同一个订单同一个费用如果被删除一次。再去删除会发现无法成功进行此操作,因为该条数据已经存在了,不能在删除了。

所以当时我们并没有建立联合唯一索引,才导致脏数据的产生。

其实上面这种场景网上有个比较好的解决方案,就是我们依旧可以将 order_no + cost_id + deleted 组合成一个联合唯一索引,
但是删除的时候deleted不再是固定的1,而是当前的主键ID,也就是deleted不等于0都是删除状态,如果删除了那deleted值=id

言归正传,接下来我们来讲下该如何修复脏数据的问题

我们先创建一张订单关联费用表

CREATE TABLE `order_cost_detail` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
  `order_no` varchar(32)  NOT NULL COMMENT '订单号',
  `cost_id` int NOT NULL COMMENT '费用Id',
  `cost_name` varchar(50)  NOT NULL DEFAULT '' COMMENT '费用名称',
  `money` decimal(10,2) NOT NULL COMMENT '金额',
  `create_time` datetime NOT NULL COMMENT '创建时间',
  `deleted` tinyint(1) NOT NULL COMMENT '是否删除(0 否,1 是)',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1  COMMENT='订单 - 费用表';

插入一些模拟数据

INSERT INTO `order_cost_detail` (`id`, `order_no`, `cost_id`, `cost_name`, `money`, `create_time`, `deleted`)
VALUES
	(1, 'EX202208160000012-3', 2, '停车费', 100.00, '2022-08-19 11:30:48', 0),
	(2, 'EX202208160000012-4', 3, '停车费', 100.00, '2023-02-17 11:25:27', 0),
	(3, 'EX202208160000012-4', 3, '停车费', 200.00, '2023-02-17 11:25:28', 0),
	(4, 'EX202208170000002-1', 1, '路桥费', 300.00, '2022-08-19 11:31:57', 0),
	(5, 'EX202208170000002-1', 1, '路桥费', 450.00, '2022-08-19 11:32:57', 0),
	(6, 'EX202208180000002-1', 2, '高速费', 225.00, '2022-08-19 11:35:41', 0);
MySQL大量脏数据,如何只保留最新的一条?

我们的目的很明确,就是要删除 多余的同一订单号费用相同的数据,同时保留最新的一条数据。

我们可以先用sql看下是否有重复数据

SELECT order_no, cost_name, count(*) AS num
FROM order_cost_detail
WHERE deleted = 0
GROUP BY order_no, cost_name
HAVING num > 1

运行结果

MySQL大量脏数据,如何只保留最新的一条?

发现有两个订单有脏数据,如果实际生产只有两条脏数据那简单,直接查询这两个订单,把重复数据删掉就好了。

但如果有几十条甚至上百条数据呢,总不能一条一条的删吧。

一般我们删除重复数据都会保留最新的那条,所以我们可以这样做

如果主键是自增的,那么重复数据删除的时候,主键最大的一条就是需要保留的,如果主键不是自增的,我们可以根据创建时间,保留创建时间最大的记录

我们先看下,我们需要删除的记录

select *
from order_cost_detail
where id not in (
	select max(id) as num
	from order_cost_detail
	where deleted = 0
	group by order_no, cost_name
)

查询结果

MySQL大量脏数据,如何只保留最新的一条?

根据结果来看确实是这两条记录需要删除,那么我们开始执行删除操作

sql如下

-- 这里是逻辑删除,也就是将需要删除的数据打上deleted = 1 标记
update order_cost_detail
set deleted = 1
where id in (
select id from order_cost_detail where id not in (
select max(id) as num from order_cost_detail where deleted = 0 group by order_no, cost_name
		)
	)

执行的时候发现报错了

You can't specify target table 'order_cost_detail' for update in FROM clause

它的意思是说,不能在同一语句中,先select出同一表中的某些值,再update这个表,即不能依据某字段值做判断再来更新某字段的值。

这个问题在MySQL官网中有提到解决方案:拉到文档下面 https://dev.mysql.com/doc/refman/8.0/en/update.html

解决方法:select 的结果再通过一个中间表 select 多一次,就可以避免这个错误

update order_cost_detail
set deleted = 1
where id in (
select t.id
from
( 
select id from order_cost_detail where id not in (
select max(id) as num from order_cost_detail where deleted = 0 group by order_no, cost_name )
	) t
)

执行成功

MySQL大量脏数据,如何只保留最新的一条?

阿里巴巴手册索引规范,第一条就是

【强制】业务上具有唯一特性的字段,即使是组合字段,也必须建成唯一索引。

说明:不要以为唯一索引影响了insert速度,这个速度损耗可以忽略,但提高查找速度是明显的:另外,即使在应用层做了非常完善
的校验和控制,只要没有唯一索引,根据墨菲定律,必然有脏数据产生。



声明: 公众号如需转载该篇文章,发表文章的头部一定要 告知是转至公众号: 后端元宇宙。同时也可以问本人要markdown原稿和原图片。其它情况一律禁止转载!

MySQL大量脏数据,如何只保留最新的一条?文章来源地址https://www.toymoban.com/news/detail-419678.html

到了这里,关于MySQL大量脏数据,如何只保留最新的一条?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • mysql中去除重复数据,只保留一条。

                    梳理一下关于删除重复记录的逻辑 目录 前期准备:建表插入数据 1、通过group by 和count(1)1找出有重复的数据  2、通过每个分组中的最小id来去重         2.1、添加主键id列         2.2 去重                 2.2.1、首先找出每个分组中count

    2024年02月08日
    浏览(105)
  • SqlServer中根据某几列获取重复的数据将其删除并保留最新一条

    有时候,我们某个数据表中,可能有几列的数据都是一样的,此时我们可能想查询出这几列数据相同的所有数据行,并保留最新一条,将其他重复的数据删除。 假设我们有如下数据表: 此时我们可以使用 ROW_NUMBER 函数,根据某几列查询出重复数据的新的排序列,该排序列就

    2024年04月28日
    浏览(36)
  • mysql表中删除重复记录,只保留一条记录的操作

    mysql表中两个字段重复记录,只保留一条记录的操作 例如有一张学生表 其中name 和 class 相同的视为重复记录,需要保留一条记录,删除重复记录, 两种操作方式如下: 方法一: group by 查询结果如下: 此操作找出了需要保留的记录,即按name、class进行分组,取出id最小的记录

    2024年02月09日
    浏览(51)
  • SQL Server删除重复数据只保留一条

    介绍 最近在导入数据库数据, 有时候给的数据源文件,存在重复数据, 需要清除但是还需要保留一条记录的需求. 本文将介绍如何使用SQL Server来实现这个需求。 流程 下面是实现删除重复数据的流程,我们可以用表格展示每个步骤: 步骤    描述 步骤一    先看看有哪些重复

    2024年02月01日
    浏览(37)
  • 删除数组的一条数据

    1、纯数组 var arr = [ \\\'111\\\' , \\\'222\\\' , \\\'333\\\' , \\\' 444\\\' , \\\'555\\\' ] // 要删除项的下标值index ,arr为源数组 var arrDelIndex = function (index,arr) {     if (!arr || arr.length == 0) {         return \\\"\\\"     }     arr.splice(index,1)     return arr } // 要删除项的值item, arr为源数组 var arrDel = function (item, arr) {    

    2024年02月15日
    浏览(63)
  • 用mysql实现按条件分组并且每组去时间最大的一条

    可以考虑使用子查询或者连接查询实现。以下是两种语法: 其中,组内条件是按照哪个字段进行分组的条件,可以是一个或多个字段。时间是需求中要筛选的时间字段,假设为time字段。这个查询会返回满足组内条件下时间最大的记录。 其中,组内条件和时间的含义同上。这

    2024年02月16日
    浏览(51)
  • MySQL如何导入大量数据?

    有时我们会遇到需要将大量数据导入MySQL的需求,一般数据存储在csv或者txt中,数据由\\\",\\\"分隔。这里提供两种方案供大家选择。 为了测试,我们先创建数据库和表,并创建一个用户。 2.1说明 load data infile其实有两种形态,load data infile和load data local infile。 load data infile:只能在

    2024年02月06日
    浏览(81)
  • ORACLE多列中取出数据最大的一条

    当查询出来的数据存在多条数据时,想按照一定条件排序取出其中一条数据。 row_number() over( partition by 分组字段 order by 排序字段 desc) --根据table_a中的pk_house,pk_customer进行分组,然后根据table_b.billdate进行排序,取出最大billdate的一条数据 select *   from (select  table_a.code,    

    2024年02月07日
    浏览(39)
  • Python数据分析实战-Series转DataFrame并将index设为新的一列(附源码和实现效果)

    实现功能 Series转DataFrame并将index设为新的一列 实现代码 实现效果 本人读研期间发表5篇SCI数据挖掘相关论文,现在某研究院从事数据挖掘相关科研工作,对数据挖掘有一定认知和理解,会结合自身科研实践经历不定期分享关于python机器学习、深度学习、数据挖掘基础知识与案

    2024年02月09日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包