数据处理与统计分析——MySQL与SQL

这篇具有很好参考价值的文章主要介绍了数据处理与统计分析——MySQL与SQL。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、初识数据库

1.1、什么是数据库

数据库:DB(DataBase)
概念:数据仓库,软件,安装在操作系统之上
作用:存储数据,管理数据

1.2、数据库分类

关系型数据库:SQL(Structured Query Language)

  • MySQL、Oracle、Sql Server、DB2、SQLlite
  • 通过表和表之间,行和列之间的关系进行数据的存储
  • 通过外键关联来建立表与表之间的关系

非关系型数据库:NoSQL(Not Only SQL)

  • Redis、MongoDB
  • 指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定

1.3、相关概念

DBMS(数据库管理系统)

  • 数据库的管理软件,科学有效的管理、维护和获取我们的数据
  • MySQL就是数据库管理系统
    数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库

1.4、MySQL及其安装

https://bareth.blog.csdn.net/article/details/107369405

1.5、基本命令

【注】所有的语句都要以分号结尾

show databases;	--查看当前所有的数据库
use 数据库名;	--打开指定的数据库
show tables;	--查看所有的表
describe/desc 表名;	--显示表的信息
create database 数据库名;	--创建一个数据库
exit	--退出连接
--			--单行注释
#			--单行注释
/*...*/		--多行注释

2、基本命令

2.1、操作数据库

1、创建数据库

CREATE DATABASE [IF NOT EXISTS] 数据库名;

2、删除数据库

DROP DATABASE [if EXISTS] 数据库名;

3、使用数据库

--如果表名或者字段名是特殊字符,则需要带``
use 数据库名;

4、查看数据库

SHOW DATABASES;

2.2、数据库的列类型

1、数值类型
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库
2、字符串类型
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库

3、时间日期类型
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库

4、null
没有值,不要使用NULL值进行计算

2.3、数据库的字段属性

UnSigned

  • 无符号的
  • 声明了该列不能为负数

ZEROFILL

  • 0填充的
  • 不足位数的用0来填充 , 如int(3),5则为005

Auto_InCrement

  • 通常理解为自增,自动在上一条记录的基础上默认+1
  • 通常用来设计唯一的主键,必须是整数类型
  • 可定义起始值和步长
    • 当前表设置步长(AUTO_INCREMENT=100) : 只影响当前表
    • SET @@auto_increment_increment=5 ; 影响所有使用自增的表(全局)

NULL 和 NOT NULL

  • 默认为NULL , 即没有插入该列的数值
  • 如果设置为NOT NULL , 则该列必须有值

DEFAULT

  • 默认的
  • 用于设置默认值
  • 例如,性别字段,默认为"男" , 否则为 “女” ; 若无指定该列的值 , 则默认值为"男"的值

拓展:每一个表,都必须存在以下五个字段:
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库

2.4 创建和删除数据库表

创建表

CREATE TABLE IF NOT EXISTS `student`(
	`id` INT(4)	NOT NULL AUTO_INCREMENT COMMENT '学号',
	`name` VARCHAR(30) NOT NULL DEFAULT '匿名' COMMENT '姓名',
	`pwd` VARCHAR(20) NOT NULL DEFAULT '123456' COMMENT '密码',
	`sex` VARCHAR(2) NOT NULL DEFAULT '女' COMMENT '性别',
	`birthday` DATETIME DEFAULT NULL COMMENT '出生日期',
	`address` VARCHAR(100) DEFAULT NULL COMMENT '家庭住址',
	`email` VARCHAR(50) DEFAULT NULL COMMENT '邮箱',
	PRIMARY KEY (`id`)
)ENGINE=INNODB DEFAULT CHARSET=utf8

【注意】

  • 表名和字段尽量使用``括起来
  • AUTO_INCREMENT 代表自增
  • 所有的语句后面加逗号,最后一个不加
  • 字符串使用单引号括起来
  • 主键的声明一般放在最后,便于查看
  • 不设置字符集编码的话,会使用MySQL默认的字符集编码Latin1,不支持中文,可以在my.ini里修改

删除表:DROP TABLE [IF EXISTS] 表名

  • IF EXISTS为可选 , 判断是否存在该数据表
  • 如删除不存在的数据表会抛出错误
    删除表并重新创建该表: TRUNCATE TABLE 表名;
-- 删除表(如果存在再删除)
DROP TABLE IF EXISTS teachers;

】所有的创建和删除尽量加上判断,以免报错

常用命令

SHOW CREATE DATABASE 数据库名;-- 查看创建数据库的语句
SHOW CREATE TABLE 表名;-- 查看表的定义语句
DESC 表名;-- 显示表的具体结构

2.5、数据库存储引擎

INNODB: 默认使用,安全性高,支持事务的处理,多表多用户操作
MYISAM:早些年使用,节约空间,速度较快
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库
数据库文件存在的物理空间位置:MySQL数据表以文件方式存放在磁盘中,包括表文件、数据文件以及数据库的选项文件,位置为:Mysql安装目录\data\(目录名对应数据库名 , 该目录下文件名对应数据表)
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库
MySQL在文件引擎上区别:

  • INNODB数据库文件类型就包括**.frm**、.ibd以及在上一级目录的ibdata1文件;
  • MYISAM存储引擎,数据库文件类型就包括
    • .frm:表结构定义文件
    • .MYD:数据文件
    • .MYD:数据文件

2.6、修改数据库

修改表名 : ALTER TABLE 旧表名 RENAME AS 新表名
添加字段 : ALTER TABLE 表名 ADD字段名 列属性[属性]
修改字段 :

  • 修改字段类型:ALTER TABLE 表名 MODIFY 字段名 列类型[属性]
  • 修改字段名和类型:ALTER TABLE 表名 CHANGE 旧字段名 新字段名 列属性[属性]

删除字段 : ALTER TABLE 表名 DROP 字段名

-- 修改表名
-- ALTER TABLE 旧表名 RENAME AS 新表名
ALTER TABLE teacher RENAME AS teachers;

-- 增加表的字段
-- ALTER TABLE 表名 ADD 字段名 列属性
ALTER TABLE teachers ADD age INT(11);

-- 修改表的字段(重命名,修改约束)
-- ALTER TABLE 表名 MODIFY 字段名 [列属性];
ALTER TABLE teachers MODIFY age VARCHAR(11);-- 修改约束
-- ALTER TABLE 表名 CHANGE 旧名字 新名字 [列属性];
ALTER TABLE teachers CHANGE age age1 INT(1);-- 字段重命名

-- 删除表的字段
-- ALTER TABLE 表名 DROP 字段名
ALTER TABLE teachers DROP age1;

3、MySQL数据管理

3.1、外键

外键概念
如果公共关键字在一个关系中是主关键字,那么这个公共关键字被称为另一个关系的外键。由此可见,外键表示了两个关系之间的相关联系。以另一个关系的外键作主关键字的表被称为主表,具有此外键的表被称为主表的从表。

在实际操作中,将一个表的值放入第二个表来表示关联,所使用的值是第一个表的主键值(在必要时可包括复合主键值)。此时,第二个表中保存这些值的属性称为外键(foreign key)。

外键作用
保持数据一致性,完整性,主要目的是控制存储在外键表中的数据,约束。使两张表形成关联,外键只能引用外表中的列的值或使用空值。

创建外键
目标:学生表(student)的gradeid字段 要去引用年级表(grade)的 gradeid字段

4、MySql数据库基本操作

对数据库进行查询和修改操作的语言叫做 SQL(Structured Query Language,结构化查询语言)。SQL 语言是目前广泛使用的关系数据库标准语言,是各种数据库交互方式的基础。

著名的大型商用数据库 Oracle、DB2、Sybase、SQL Server,开源的数据库 PostgreSQL、MySQL,甚至一些小型的数据库 Access 等都支持 SQL。近些年蓬勃发展的 NoSQL 系统最初是宣称不再需要 SQL 的,后来也不得不修正为 Not Only SQL,来拥抱 SQL。

SQL 是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。与其他程序设计语言(如 C语言、Java 等)不同的是,SQL 由很少的关键字组成,每个 SQL 语句通过一个或多个关键字构成。

SQL 具有如下优点。

  • 一体化:SQL 集数据定义、数据操作和数据控制于一体,可以完成数据库中的全部工作。
  • 使用方式灵活:SQL 具有两种使用方式,可以直接以命令方式交互使用;也可以嵌入使用,嵌入C、C++、Fortran、COBOL、Java 等语言中使用。
  • 非过程化:只提操作要求,不必描述操作步骤,也不需要导航。使用时只需要告诉计算机“做什么”,而不需要告诉它“怎么做”,存储路径的选择和操作的执行由数据库管理系统自动完成。
  • 语言简洁、语法简单:该语言的语句都是由描述性很强的英语单词组成,而且这些单词的数目不多。
    SQL 包含以下 4 部分:
  1. 数据定义语言(Data Definition Language,DDL)
    用来创建或删除数据库以及表等对象,主要包含以下几种命令:
    • DROP:删除数据库和表等对象
    • CREATE:创建数据库和表等对象
    • ALTER:修改数据库和表等对象的结构
  2. 数据操作语言(Data Manipulation Language,DML)
    用来变更表中的记录,主要包含以下几种命令:
    • SELECT:查询表中的数据
    • INSERT:向表中插入新数据
    • UPDATE:更新表中的数据
    • DELETE:删除表中的数据
  3. 数据查询语言(Data Query Language,DQL)
    用来查询表中的记录,主要包含 SELECT 命令,来查询表中的数据。
  4. 数据控制语言(Data Control Language,DCL)
    用来确认或者取消对数据库中的数据进行的变更。除此之外,还可以对数据库中的用户设定权限。主要包含以下几种命令:
    • GRANT:赋予用户操作权限
    • REVOKE:取消用户的操作权限
    • COMMIT:确认对数据库中的数据进行的变更
    • ROLLBACK:取消对数据库中的数据进行的变更

数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库

##############################联合查询##############################
将薪资低于5000的员工,和年龄大于50岁的员工全部查出来,(将两查询结果合并,有可能产生重复数据 union all 和union,字段类型要保持一致)


select *
from emp
where salary < 5000

union

select *
from emp
where age > 50;

嵌套查询

查询销售部所有员工信息

先查销售部,再差员工部门id为销售部的员工信息

select *
from emp
where dept_id = (select id from dept where name = '销售部');

查询在员工房东白入职日期之后入职的员工信息

select *
from emp
where emp.entrydate > (select entrydate from emp where name = '方东白');

5、MySql存储引擎

通过建表语句查看存储引擎,show create table emp;查看emp表的建表语句,存储引擎为InnoDB
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库
show engines;可以查看当前数据库支持的存储引擎:
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库
创建表时指定存储引擎,这里指定存储引擎为Memory:

 create table table_en_memory(
    id   int,
    name varchar(20)
) engine = Memory;

InnoDB存储引擎

InnoDB是一种兼顾高可靠性和高性能的通用存储引擎,在MySQL5.5之后,是默认存储引擎。
特点:

  • 事务:DML操作(增删改)支持事务。
  • 外键:支持外键,保证数据的完整性和正确性。
  • 行级锁,提高并发访问性能。

Memory存储引擎

Memory引擎的表 数据是存储在内存中的,受到硬件问题(如断电)等影响时,智能将这些表作为临时表或缓存使用。
内存存放
hash索引
面试题——存储引擎特点:
数据处理与统计分析——MySQL与SQL,机器学习,mysql,sql,数据库

如何选择存储引擎?

  • 选择存储引擎时,如果应用对事务的完整性有比较高的要求,在并发条件下要求数据的一致性,操作数据除了插入和查询之外,还包含很多的更新、删除操作,则唯一选择InnoDB
  • 如果应用以读操作和插入为主,只有少量更新和删除操作,且对事务完整性,并发性要求不高,则训责MyISAM
  • Memory将所有数据保存在内存中,访问速度极快,却也限制了表的大小,太大的表无法缓存在内存中,也无法保证数据安全,通常用于临时表及缓存。

实际上绝大部分场景使用的都是InnoDB,MyISAMMemory使用情况较少,可以被另一种NoSQL系列数据库替代,,使用MyISAM的场景可以被MonoDB替代,使用Memory场景下可以被Redis替代。

索引

索引index是一种数据结构,能帮助MySQL高效获取数据。

Python使用mysql-connector连接数据库

import mysql.connector

# 连接到 MySQL 数据库
conn = mysql.connector.connect(
    host="10.39.86.151",
    port=3306,
    user="write",
    password="xxxxxxxxxxx",
    database="device_operate"
)

# 创建游标
cursor = conn.cursor()

# 执行 SQL 查询
sql_text = '''
    select
        start_node_id, 
        end_node_id,
        start_coordinate_x, 
        start_coordinate_y, 
        end_coordinate_x, 
        end_coordinate_y, 
        pipe_length
    from 
        pt_pipeline_base
    where credit_code ="91370211727832262X"
        and is_delete=0
        and is_break_point=0
        and pipe_status=1
'''
cursor.execute(sql_text)

# 获取查询结果
result = cursor.fetchall()

# 输出结果
for row in result:
    print(row)

# 关闭游标和连接
cursor.close()
conn.close()

参考:
MySQL教程:MySQL数据库学习宝典(从入门到精通)

MySQL详细学习教程(建议收藏)文章来源地址https://www.toymoban.com/news/detail-661682.html

到了这里,关于数据处理与统计分析——MySQL与SQL的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何在PostgreSQL中使用pg_stat_statements插件进行SQL性能统计和分析?

    PostgreSQL中的 pg_stat_statements 是一个强大的插件,用于追踪执行时间最长的SQL语句。通过它,我们可以获取有关SQL语句执行频率、总执行时间、平均执行时间等信息,从而进行性能调优和问题分析。 首先,我们需要确保 pg_stat_statements 插件已经安装。在大多数PostgreSQL发行版中,

    2024年04月25日
    浏览(75)
  • 【postgresql 基础入门】聚合函数,通用型,统计分析型,多种多样的聚合函数满足数据的大数据的统计分析

    ​ 专栏内容 : postgresql内核源码分析 手写数据库toadb 并发编程 个人主页 :我的主页 管理社区 :开源数据库 座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物. 在数据库管理系统中,SQL(结构化查询语言)的聚集函数扮演着至关重要的角色。它们能够对一组值执

    2024年04月10日
    浏览(63)
  • 使用Python进行数据分析——描述性统计分析

    大家好,描述性统计分析主要是指求一组数据的平均值、中位数、众数、极差、方差和标准差等指标,通过这些指标来发现这组数据的分布状态、数字特征等内在规律。在Python中进行描述性统计分析,可以借助Numpy、Pandas、SciPy等科学计算模块计算出指标,然后用绘图模块Ma

    2024年02月07日
    浏览(49)
  • 【数据分析】统计量

    1. 均值、众数描述数据的集中趋势度量,四分位差、极差描述数据的离散程度。 2. 标准差、四分位差、异众比率度量离散程度,协方差是度量相关性。  期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: 从直观上来看,协方差表示的是两个变量总体误

    2024年02月11日
    浏览(41)
  • Hadoop3.0大数据处理学习4(案例:数据清洗、数据指标统计、任务脚本封装、Sqoop导出Mysql)

    直播公司每日都会产生海量的直播数据,为了更好地服务主播与用户,提高直播质量与用户粘性,往往会对大量的数据进行分析与统计,从中挖掘商业价值,我们将通过一个实战案例,来使用Hadoop技术来实现对直播数据的统计与分析。下面是简化的日志文件,详细的我会更新

    2024年02月08日
    浏览(48)
  • 数据科学、统计学、商业分析

    数据科学、统计学、商业分析是在各方面有着不同的侧重和方向的领域。  1.专业技能 数据科学(Data Science):数据科学涉及从大量数据中提取有价值的信息、模式和洞察力的领域。它使用多种技术和领域知识,如统计学、机器学习、数据库管理、数据可视化等,进行数据清

    2024年02月15日
    浏览(48)
  • R语言 | 数据分析——统计绘图

    目录 一、分类数据的图形描述 1.1 条形图barplot()函数 1.2 饼图pie()函数  二、量化数据的图形描述 2.1 点图与dotchart()函数 2.2 绘图函数plot()  2.2.1 绘制时间数列对象 ​2.2.2 向量数据与plot()函数 2.2.3 数据框数据与plot()函数 2.2.4  因子型数据与plot()函数 ​2.2.5 使用lines()函数绘制回

    2024年02月04日
    浏览(46)
  • 数据的统计描述和分析——假设检验

    对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设. 1. 参数检验 :如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验

    2024年02月14日
    浏览(43)
  • 【Excel统计分析插件】上海道宁为您提供统计分析、数据可视化和建模软件——Analyse-it

    Analyse-it是Microsoft Excel中的 统计分析插件 它为Microsoft Excel带来了 易于使用的统计软件 Analyse-it在软件中 引入了一些新的创新统计分析   Analyse-it与 许多Excel加载项开发人员不同 使用完善的软件开发和QA实践 包括单元/集成/系统测试 敏捷开发、代码审查 问题跟踪和用于变更管

    2024年02月07日
    浏览(44)
  • 【大数据学习篇6】 Spark操作统计分析数据操作

    通过前面的文章安装好环境下面我们就可以开始来操作 使用MySQL的root用户对数据库进行修改以下设置

    2024年02月05日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包