【postgresql 基础入门】聚合函数,通用型,统计分析型,多种多样的聚合函数满足数据的大数据的统计分析

这篇具有很好参考价值的文章主要介绍了【postgresql 基础入门】聚合函数,通用型,统计分析型,多种多样的聚合函数满足数据的大数据的统计分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

聚合函数

专栏内容

  • postgresql内核源码分析
  • 手写数据库toadb
  • 并发编程

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

一、前言


在数据库管理系统中,SQL(结构化查询语言)的聚集函数扮演着至关重要的角色。它们能够对一组值执行计算,并返回单个值,为数据分析与决策提供了极大的便利。聚集函数不仅简化了复杂的数据处理任务,还使得数据的统计与汇总变得高效且准确。

常见的SQL聚集函数包括求和(SUM)、平均值(AVG)、最大值(MAX)、最小值(MIN)以及计数(COUNT)等。这些函数能够快速地处理大量数据,提取出关键信息,帮助用户更好地了解数据的分布与特征。

随着大数据时代的到来,数据的规模与复杂性不断增加,SQL聚集函数的重要性也日益凸显。它们为数据科学家、分析师以及开发者提供了强大的工具,使得数据的挖掘与分析变得更加深入与精准。因此,深入了解和掌握SQL聚集函数的使用方法,对于提升数据处理能力和优化决策过程具有重要意义。

二、概述


聚集函数把输入的集合,通过计算得到一个单一值,在postgresql 中内建了许多聚集函数,满足常用的统计分析,主要分为以下几类:

  • 通用聚集函数
  • 统计性聚集函数
  • 有序集聚集函数
  • 假想集聚集

在这里我们分享几个经常用到的通用聚集函数 avg, max,min,sum,count,和字符串连接,以及用于分析偏差的聚集函数。

三、语法介绍


一个聚集表达式表示在由一个查询选择的行上应用一个聚集函数。一个聚集函数将多个输入减少到一个单一输出值,例如对输入的求和或平均。一个聚集表达式的语法是下列之一:

aggregate_name (column1 [ , … ] [ order_by_clause ] )
aggregate_name (DISTINCT column1 [ , … ] [ order_by_clause ] )
aggregate_name ( * )

说明

  • 这里aggregate_name是一个聚集函数名称,

  • column1是一个表的列名,一般聚集函数会对每一行进行计算,当指定distinct时,重复值只参与计算一次;

  • 可选order by 子句对指定列进行排序,当然对于max,min 来讲排序是没有意义的,而对于字符串连接来讲,可以指定结果的显示次序;

  • 当输入为 *时,所有列都会参与计算;

  • 大部分聚集函数忽略空输入,这样其中一个或多个表达式得到空值的行将被丢弃;

下面来介绍几个常用的集聚函数。

四、通用聚集函数


这里列举一些常用的聚集函数。

平均值 avg

avg 计算指定列的算术平均值,它可以输入的类型,以及对应的输出类型有:

  • avg ( smallint ) → numeric
  • avg ( integer ) → numeric
  • avg ( bigint ) → numeric
  • avg ( numeric ) → numeric
  • avg ( real ) → double precision
  • avg ( double precision ) → double precision
  • avg ( interval ) → interval

计算所有非空输入值的平均值(算术平均值),可以看到avg内置的求平均函数,适配了各种数值类型;


最大值 max

max 计算非空输入值的最大值;

  • max ( type ) → type 与输入类型相同

type 类型可以是任何数字、字符串、日期/时间或enum类型, 以及inet, interval, money, oid, pg_lsn,tid和任何这些类型的数组。

最小值 min

min 计算非空输入值的最小值;

  • min ( type ) → type 与输入类型相同

type 类型可以是任何数字、字符串、日期/时间或enum类型, 以及inet, interval,money, oid, pg_lsn,tid和任何这些类型的数组。

求和 sum

sum 计算非空输入值的总和;它可以支持以下类型的输入,同时对应输出类型:

  • sum ( smallint ) → bigint
  • sum ( integer ) → bigint
  • sum ( bigint ) → numeric
  • sum ( numeric ) → numeric
  • sum ( real ) → real
  • sum ( double precision ) → double precision
  • sum ( interval ) → interval
  • sum ( money ) → money

avg相比,这里多了一种money类型。

行数统计 count

count计算输入值不为空的输入行的数量, 有两种写法:

  • count ( * ) → bigint
  • count ( column1 ) → bigint

一种是*,它是计算所有行的数量;而另一种传入列名,这时只计算当前列的非空值的行数,如果当前列没有非空值,那么与前一种结果相同。

当然还有一种常见的写法count(1),这里传入常量1,它的结果与第一种写法相同,计算所有行的行数量。

下面通过一个例子来看一下效果:

postgres=# select * from products ;
 product_id | product_name |  price  | category
------------+--------------+---------+----------
          2 | shirt        |  202.40 | type2
          3 | cake         |   37.80 | type4
          5 | hat          |   88.40 | type2
          6 | milk         |   19.80 | type4
          1 | iphone       | 8999.01 | type5
          7 | keyboard     |   92.01 | type5
          4 | pencil       |    8.20 | type1
          8 | desk         |  120.00 |
(8 rows)

postgres=# select count(1) from products ;
 count
-------
     8
(1 row)

postgres=# select count(category) from products ;
 count
-------
     7
(1 row)

postgres=# select count(distinct category) from products ;
 count
-------
     4
(1 row)

这里使用列名category统计,就会排除空值行,当然还可以对列的值进行去重distinct, 之后统计实际类型的数量。

字符串连接 string_agg

string_agg连接非空输入值到字符串中,支持两种输入类型:

  • string_agg ( value text, delimiter text ) → text
  • string_agg ( value bytea, delimiter bytea ) → bytea

value是输入的内容,delimiter是分隔符,

第一个值之后的每个值前面都有相应的分隔符(delimiter)(如果它不为空);

postgres=# select string_agg(product_name,',') from products ;
                   string_agg
-------------------------------------------------
 shirt,cake,hat,milk,iphone,keyboard,pencil,desk
(1 row)

可以看到,经过字符串连接之后,产品名之间按指定分隔符进行连接起来。

五、统计类聚集函数


当做一些简单的统计分析时,可以使用统计学中的公式进行计算,这里只列了几个常用的,通过类似的命名可以查看postgresql帮助文档,已经内置了很多统计类型的聚集函数。

平方和

  • regr_sxx ( Y double precision, X double precision ) → double precision

计算自变量的“平方和” ,计算公式为:sum(X2) - sum(X)2/N.


postgres=# select regr_sxx(product_id,price) from products ;
     regr_sxx
-------------------
 69613296.20214999
(1 row)

  • regr_syy ( Y double precision, X double precision ) → double precision

计算因变量的“平方和”,计算公式为: sum(Y2) - sum(Y)2/N.


postgres=# select regr_syy(product_id,price) from products ;
 regr_syy
----------
       42
(1 row)

注意,这里的Y 是前面一个输入。

乘积和

  • regr_sxy ( Y double precision, X double precision ) → double precision

计算独立变量乘以因变量的“交叉积和”, ,计算公式为:sum(X*Y) - sum(X) * sum(Y)/N.

标准差

计算输入值的样本标准差;

  • stddev_samp ( numeric_type ) → double precision / numeric

在输入值为real 或 double precision类型时,输出值类型为 double precision,其它数值类型时为 numeric。

postgres=# select stddev_samp(price) from products ;
    stddev_samp
-------------------
 3153.530814865639
(1 row)

标准方差

计算输入值的样本方差(样本标准差的平方);

  • var_samp ( numeric_type ) → double precision / numeric

在输入值为real 或 double precision类型时,输出值类型为 double precision,其它数值类型时为 numeric。

六、总结


本文分享了通用类型和统计类型的常用聚集函数,它们经常被使用到,也是数据库中对数据使用的一些常见方式,还有很多类似的聚集函数,可以查看postgresql帮助手册。

七、结尾


非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

注:未经同意,不得转载!文章来源地址https://www.toymoban.com/news/detail-846164.html

到了这里,关于【postgresql 基础入门】聚合函数,通用型,统计分析型,多种多样的聚合函数满足数据的大数据的统计分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里云服务器共享型、计算型和通用型有什么区别?

    阿里云服务器的CPU种类有很多,当阿里云搞活动的时候,往往会有共享型、计算型、通用型这几款,那么他们之间有什么区别呢? 共享型: 共享型目前常见的型号是共享标准型s6和共享计算型n4。 共享型产品采用非绑定CPU调度模式。每个vCPU会被随机分配到任何空闲CPU超线程

    2024年02月12日
    浏览(47)
  • PG数据库实现高可用方案(包括通用型方案Corosync+pacemaker协作)

    系列文章 keepalived学习记录:对其vip漂移过程采用gdb跟踪 Keepalived与HaProxy的协调合作原理分析 Oracle实现高可用性的工具(负载均衡/故障切换) 达梦实现高可用性的实现(failover功能/负载均衡/虚拟ip透明切换) PG数据库实现高可用方案(包括通用型方案Corosync+pacemaker协作) 在

    2024年02月06日
    浏览(65)
  • 华为云RDS通用型(x86) vs 鲲鹏(ARM)架构的性能对比

    之前,我们对比了阿里云RDS的经济版(ARM)与x86版的性价比,这次我们来看看华为云的RDS MySQL的“通用型”(x86)与“鲲鹏通用增强型”(ARM)版本的情况如何。 这里依旧选择了用户较为常用的4c16g的规格进行测试,测试工具使用了sysbench的oltp_read_write模型进行测试。配置参数与选

    2024年02月03日
    浏览(48)
  • 性能测评:阿里云服务器ECS通用型g8i实例CPU内存安全存储

    阿里云服务器ECS通用型实例规格族g8i采用2.7 GHz主频的Intel Xeon(Sapphire Rapids) Platinum 8475B处理器,3.2 GHz睿频,g8i实例采用阿里云全新CIPU架构,可提供稳定的算力输出、更强劲的I/O引擎以及芯片级的安全加固。阿里云百科分享阿里云服务器ECS通用型g8i实例CPU计算性能、存储、网络

    2024年02月12日
    浏览(58)
  • 阿里云云服务器最新价格表(第六代计算型c6、通用型g6和内存型r6)

    目前阿里云第六代云服务器有计算型c6、通用型g6和内存型r6实例。计算型c6实例有2核4G、4核8G、8核16G配置可选,主要适用于网站应用、批量计算、视频编码等场景。通用型g6实例有2核8G、4核16G、8核32G配置可选,适用于各种类型的企业级应用,网站和游戏服务器等场景。内存型

    2024年02月03日
    浏览(54)
  • 【Python 零基础入门】Numpy 常用函数 通用函数 & 保存加载

    Numpy (Numerical Python) 是 Python 编程语言的一个扩展程序库, 支持大量的维度数组与矩阵运算, 并提供了大量的数学函数库. Numpy 利用了多线程数组来存储和处理大型数据集, 从而提供了一个高效的方式来进行数值计算, 特别是对于矩阵预算和线性代数. 通用函数 (Ufuncs) 是 numpy 的核

    2024年02月05日
    浏览(65)
  • Postgresql的高级聚合函数使用实例(超详细)

    PostgreSQL是一种开源的强大SQL数据库管理系统,它提供了丰富的聚合函数来进行数据分析和计算。高级聚合函数是PostgreSQL中一类非常强大的聚合函数,可以通过自定义的方式进行一些高级的数据计算,例如按照给定的索引或条件计算平均值、累加值或者其他的复杂的汇总值。

    2024年02月09日
    浏览(46)
  • MySQL基础篇第8章(聚合函数)

    可以对数值型数据使用AVG和SUM函数。 可以对任意数据类型的数据使用 MIN 和 MAX 函数。 COUNT(*)返回表中记录总数,适用于任意数据类型。 COUNT(expr) 返回expr不为空的记录总数。 可以使用GROUP BY子句将表中的数据分成若干组 在SELECT列表中所有未包含在组函数中的列都应该包含在

    2024年02月15日
    浏览(35)
  • Django基础入门⑫:Django 对象查询详解,分组聚合

    🏘️🏘️个人简介:以山河作礼。 🎖️🎖️: Python领域新星创作者,CSDN实力新星认证,阿里云社区专家博主,CSDN内容合伙人 🎁🎁:Web全栈开发专栏:《Web全栈开发》免费专栏,欢迎阅读! 🎁🎁: 文章末尾扫描二维码可以加入粉丝交流群,不定期免费送书。 F对象查询与

    2024年02月12日
    浏览(57)
  • 【postgresql 基础入门】数据库服务的管理

    ​ 专栏内容 : postgresql内核源码分析 手写数据库toadb 并发编程 ​ 开源贡献 : toadb开源库 个人主页 :我的主页 管理社区 :开源数据库 座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物. 初始化集群 数据库服务管理 postgresql 数据库是一款通用的关系型数据,在开

    2024年02月10日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包