MySQL——GROUP BY详解与优化

这篇具有很好参考价值的文章主要介绍了MySQL——GROUP BY详解与优化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在 MySQL 中,GROUP BY用于将具有指定列中相同值的行分组在一起。这是在处理大量数据时非常有用的功能,允许对数据进行分类和聚合。

基本使用

语法

以下是GROUP BY子句的基本语法:
"""

SELECT col1, col2, ..., aggregate_function(col_name)
FROM table_name
WHERE condition
GROUP BY col1, col2, ...;

"""
其中,col1, col2, ...是要分组的列名,aggregate_function是用于聚合数据的函数,如SUM,

AVG, MAX, MIN等。table_name是要从中检索数据的表的名称,condition是可选的查询条

件。

示例

"""

SELECT column1, column2, COUNT(*)
FROM table_name
WHERE condition
GROUP BY column1, column2
ORDER BY column1, column2;

"""
在这个示例中,选择了column1和column2两列,并对它们进行了分组。使用COUNT(*)函

数来计算每个组中的行数。使用ORDER BY子句按column1和column2升序排序结果集。

那怎么查询非分组的列名呢?

一般来讲 SELECT 中的值要么是来自于聚合函数(sum、avg、max等)的结果,要么是来自

于 group by 后面的列。

从MySQL 5.7.5之前默认是支持的,之后的版本默认SQL模式包括ONLY_FULL_GROUP_BY,
"""

mysql> select version();
+-----------+
| version() |
+-----------+
| 8.0.18    |
+-----------+
1 row in set (0.06 sec)
mysql> select @@global.sql_mode;
+-----------------------------------------------------------------------------------------------------------------------+
| @@global.sql_mode                                                                                                     |
+-----------------------------------------------------------------------------------------------------------------------+
| ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,
+-----------------------------------------------------------------------------------------------------------------------+
1 row in set (0.18 sec)

"""
在这种模式下执行 SQL 会报下面的错误


"""

mysql> select * from user group by age;
1055 - Expression #1 of SELECT list is not in GROUP BY clause 
and contains nonaggregated column xxx which is not functionally
dependent on columns in GROUP BY clause; 
this is incompatible with sql_mode=only_full_group_by

"""


可以通过下面两种方式解决:

  1. 重新设置 sql_mode,去掉ONLY_FULL_GROUP_BY即可

  2. 使用 any_value() 或 group_concat()

  • any_value():将分到同一组的数据里第一条数据的指定列值作为返回数据

  • group_concat():将分到同一组的数据默认用逗号隔开作为返回数据


"""

mysql> select age, any_value(id) from `user` GROUP BY age;
+-----+---------------+
| age | any_value(id) |
+-----+---------------+
|   3 |             0 |
|   6 |             3 |
|   7 |             5 |
|  12 |             1 |
|  14 |             2 |
|  19 |             7 |
+-----+---------------+
6 rows in set (0.15 sec)

mysql> select age, group_concat(id) from `user` GROUP BY age;
+-----+------------------+
| age | group_concat(id) |
+-----+------------------+
|   3 | 0,4              |
|   6 | 3                |
|   7 | 5                |
|  12 | 1                |
|  14 | 2                |
|  19 | 7                |
+-----+------------------+
6 rows in set (0.05 sec)

"""


不同版本的排序

我们以下面这个user表为例,看下在不同版本下有什么区别?

"""

mysql>  show create table  user;
+-------+---------------------------------+
CREATE TABLE `user` (
  `id` int(11) NOT NULL,
  `name` varchar(255) DEFAULT NULL ,
  `age` int(255) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `nameIndex` (`name`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8 
+-------+---------------------------------+
mysql> select * from user;
+----+------+-----+
| id | name | age |
+----+------+-----+
|  0 | 陈   |   3 |
|  1 | 李   |  12 |
|  2 | 张   |  14 |
|  3 | 陈   |   6 |
|  4 | 李   |   3 |
|  5 | NULL |   7 |
|  7 | 张   |  19 |
+----+------+-----+
7 rows in set (0.06 sec)

"""


在MySQL 5.7中


MySQL——GROUP BY详解与优化


在MySQL 8.0中


MySQL——GROUP BY详解与优化


同样的SQL在MySQL 5.7中与MySQL 8.0中执行结果是不一样的,在MySQL 5.7中数据默认

按照分组列升序展示,在MySQL 8.0中则没有排序,所以在MySQL 5.7中执行计划里面的

Extra 这个字段的多了一个 Using filesort。

因为在MySQL 5.7中,GROUP BY 默认隐式排序,按GROUP BY列按升序排序。如果不想在

执行 GROUP BY 时执行排序的开销,可以禁用排序:

"""

GROUP BY column_name ORDER BY NULL

"""
然而,在MySQL 8.0中,GROUP BY默认不会使用排序功能,除非使用了ORDER BY语句。

工作原理

执行流程

我们先来看下下面这条sql语句在MySQL 5.7中的执行计划:
"""

  explain select age,count(age) from user where name ='李'  GROUP BY age;

"""
MySQL——GROUP BY详解与优化


在Extra字段里面, 我们可以看到三个信息:

  • Using index condition: 表示这个语句使用了索引来过滤;
  • Using temporary: 表示使用了临时表;
  • Using filesort: 表示需要排序

这个语句的执行流程是这样的:

  1. 创建一个临时表。表里有两个字段 age 和 count(age)、主键为 age
  2. 扫描普通索引nameIndex ,找到 name ='李' 主键 ID;
  3. 通过主键ID,回表找到 age=12 字段值
  4. 判断临时表中有没有主键为 12 的行
  • 没有就插入一个记录(12,1)
  • 就将12这一行的count(age)值加1

遍历完成后, 需要根据字段 age 做排序

  1. 初始化sort_buffer, sort_buffer中有两个字段

  2. 从内存临时表中一行一行地取出数据,分别存入sort_buffer中的两个字段里。 这个过程要对内存临时表做全表扫描。

  3. 在sort_buffer中根据age的值进行排序。

  4. 排序完成后,返回给客户端。

内存临时表排序的时候使用了rowid排序方法。


"""

"filesort_summary":{  
	"rows":2,  
	"examined_rows":2,  
	"number_of_tmp_files":0,  
	"sort_buffer_size":320,  
	"sort_mode":"<sort_key, rowid>"  
}

"""


临时表

内存临时表

由于本例子只有几行数据, 内存可以放得下,因此只使用了内存临时表。 但是内存临时表的

大小是有限制的, 参数 tmp_table_size 表示临时表内存大小, 默认是16M。内存临时表使

用的是memory引擎。

"""

mysql> show  variables like '%tmp_table_size%';
+----------------+---------+
| Variable_name  | Value   |
+----------------+---------+
| tmp_table_size | 2097152 |
+----------------+---------+
1 row in set (0.04 sec)

"""

磁盘临时表

如果临时表大小超过了tmp_table_size, 那么内存临时表就会转成磁盘临时表。磁盘临时表

使用的引擎默认是InnoDB, 是由参数internal_tmp_disk_storage_engine 控制

"""

mysql> show variables like '%internal_tmp_disk_storage_engine%';
+----------------------------------+--------+
| Variable_name                    | Value  |
+----------------------------------+--------+
| internal_tmp_disk_storage_engine | InnoDB |
+----------------------------------+--------+
1 row in set (0.04 sec)

"""


为了复现生成磁盘临时表,把 tmp_table_size设置小一点,通过查

Created_tmp_disk_tables值,查看对应的磁盘临时表数量

"""

mysql> set tmp_table_size=1;
select age,count(age) from user where name ='李'  GROUP BY age ORDER BY age ;
show status like '%Created_tmp%';
Query OK, 0 rows affected (0.02 sec)

+-----+------------+
| age | count(age) |
+-----+------------+
|   3 |          1 |
|  12 |          1 |
+-----+------------+
2 rows in set (0.03 sec)

+-------------------------+-------+
| Variable_name           | Value |
+-------------------------+-------+
| Created_tmp_disk_tables | 3     |
| Created_tmp_files       | 60    |
| Created_tmp_tables      | 6     |
+-------------------------+-------+
3 rows in set (0.04 sec)

"""


Created_tmp_tables:在内存中创建内部临时表时或在磁盘,服务器将递增此值。

Created_tmp_disk_tables:在磁盘上创建内部临时表时, 服务器递增此值

一般理想的配置是:

"""

Created_tmp_disk_tables / Created_tmp_tables * 100% <= 25% 

"""

分组优化

不论是使用内存临时表还是磁盘临时表,group by需要构造一个带唯一索引的表, 执行代价

都是比较高的。如果表的数据量比较大,执行起来就会很慢。

使用索引

如果可以确保输入的数据是有序的,那么 group by的时候, 就只需要从左到右,顺序扫描,

依次累加。那就是InnoDB的索引,对索引列分组不需要临时表,也不需要排序。

MySQL——GROUP BY详解与优化


增大tmp_table_size

如果group by需要统计的数据量不大, 尽量只使用内存临时表; 可以通过适当调大

tmp_table_size参数, 来避免用到磁盘临时表。

使用SQL_BIG_RESULT

如果一个group by语句中需要放到临时表上的数据量特别大,还是按照上面的逻辑,先放到

内存临时表,插入一部分数据后,发现内存临时表不够用了再转成磁盘临时表,那感觉就没必

要了,那怎么样可以直接使用磁盘临时表呢?

使用SQL_BIG_RESULT, 可以与 SELECT 语句中的GROUP BY或DISTINCT关键字一起使用。

它的作用是告诉MySQL优化器,查询结果集较大,直接用磁盘临时表。MySQL会使用基于磁

盘的临时表进行排序

例如,以下是一个使用SQL_BIG_RESULT的示例:
"""

SELECT SQL_BIG_RESULT col1, col2
FROM my_table
GROUP BY col1;

"""
需要注意的是,使用SQL_BIG_RESULT会增加服务器的内存和CPU使用量,因此应该仔细评

估是否需要使用它。通常情况下,只有在处理大型数据集时才需要使用。

禁用排序

在MySQL 5.7中,如果对group by语句的结果没有排序要求,在语句后面加 order by null,

禁用排序,减少不必要的排序开销。

GROUP BY 和 DISTINCT 的区别

首先是使用方式不同:虽然在某些情况下 DISTINCT 和 GROUP BY 可以实现相同的结果,但

通常情况下,它们用于不同的目的,一个是去重,一个是聚合。

  • DISTINCT 关键字用于返回 SELECT 查询中不同的值,即去重。它会扫描所有的行并去除重复的行。

  • GROUP BY 关键字用于将结果集按照指定列进行分组,并对每个分组执行聚合函数。

再就是在性能上:如果在不需要执行聚合函数时,DISTINCT 和GROUP BY这两条语句的语义

和执行流程是相同的,因此执行性能也相同


MySQL——GROUP BY详解与优化


使用场景

GROUP BY通常用于以下场景:文章来源地址https://www.toymoban.com/news/detail-595407.html

  • 对数据进行分类和统计
  • 按特定条件对数据进行分组
  • 进行聚合操作,如计算总数、平均数、最大值、最小值等
  • 生成报表或汇总数据

到了这里,关于MySQL——GROUP BY详解与优化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Mysql group by使用示例

    总数据: 索引情况:

    2024年02月11日
    浏览(24)
  • MySQL 中 Group By 的用法

    Group By 是一种 SQL 查询语句,常用于根据一个或多个列对查询结果进行分组。在 Group By 子句中指定的列将成为分组依据,而在 Select 子句中指定的列必须是聚合函数(例如 SUM、AVG、COUNT 等)或分组列。 Group By 的语法如下:  SELECT column_name(s) FROM table_name WHERE condition GROUP BY co

    2024年02月13日
    浏览(34)
  • GROUP BY 使用方法详解

    group by是开发中经常用到的SQL语句,从字面意思来看就是根据哪个字段或者哪几个字段对查询到的数据进行分组统计,既然是分组统计那如何分组呢?所以group by通常都是和聚合函数还有having一起使用。 select 聚合函数(字段1),字段2 from 表名 where 条件 group by 字段2,字段3 或者

    2024年02月13日
    浏览(22)
  • 【Pytorch:nn.Embedding】简介以及使用方法:用于生成固定数量的具有指定维度的嵌入向量embedding vector

    首先我们讲解一下关于嵌入向量embedding vector的概念 1) 在自然语言处理NLP领域,是将单词、短语或其他文本单位映射到一个固定长度的实数向量空间中 。嵌入向量具有较低的维度,通常在几十到几百维之间,且每个维度都包含一定程度上的语义信息。这意味着在嵌入向量空

    2024年02月12日
    浏览(22)
  • mysql distinct 和 group by 去重

    MySQL中常用去重复数据的方法是使用 distinct 或者 group by group by 分组后,如果没有对分组后的数据进行操作,如使用聚合函数/分组函数:count、sum、avg、max 、min,分组后直接显示该分组的第一条数据。 说明: 有一个事件评论表,针对每个事件,用户都可以发表评论,每发表一

    2024年02月04日
    浏览(30)
  • MySQL查询分组Group By原理分析

    日常开发中,我们经常会使用到group by: 你是否知道group by的工作原理呢? group by和having有什么区别呢? group by的优化思路是怎样的呢? 使用group by有哪些需要注意的问题呢? 使用group by的简单例子 group by 工作原理 group by + where 和 having的区别 group by 优化思路 group by 使用注意

    2023年04月16日
    浏览(30)
  • mysql中的group by 和 having使用

    mysql中的group by 和 having 使用 –sql中的group by 用法解析: – Group By语句从英文的字面意义上理解就是“根据(by)一定的规则进行分组(Group)”。 –它的作用是通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。 –注意:group by 是先排序后

    2024年02月08日
    浏览(41)
  • mysql group by 字段 与 select 字段

    表数据如下: 执行SQL语句1: SELECT * FROM `z_course` GROUP BY NAME,SEX  结果:   执行SQL语句2: SELECT * FROM `z_course` GROUP BY NAME    sql 1 根据 name,sex 两个字段分组,查询 所有字段,返回结果 sql 2 根据 name 字段分组,查询所有字段,返回结果 sql2 和 sql1 的区别是 分组少了 sex字段,那

    2024年02月10日
    浏览(32)
  • 一篇文章了解MySQL的group by

    1.本文章MySQL使用的是5.7,引擎使用的是innodb 2. 使用的表结构(t1),字段a上有一个索引, group by的常规用法是配合聚合函数,利用分组信息进行统计,常见的是配合max等聚合函数筛选数据后分析,以及配合having进行筛选后过滤。 聚合函数 : count(),返回指定列中数据的个数

    2024年02月05日
    浏览(26)
  • mysql的distinct和group by的区别

    GROUP BY 和 DISTINCT 都是用于从数据库中选择唯一值的 SQL 子句。它们之间的主要区别在于它们的作用方式和应用场景。 GROUP BY 语句用于将数据按照一个或多个列进行分组,然后对每个组应用一个聚合函数(如 COUNT、SUM、AVG 等)以得到每个组的统计结果。GROUP BY 通常用于在查询

    2024年02月05日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包