数据科学导论复习

这篇具有很好参考价值的文章主要介绍了数据科学导论复习。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第一章 绪论

[基本内容]

1.1 为什么要研究/学习数据科学

1.2 数据科学的基本概念

维基百科——应用科学的方法、流程、算法和系统从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科
数据科学导论,数据科学导论,python,大数据,数据挖掘

1.3 数据科学基本流程和数据流

数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
[基本要求]
1.掌握:数据科学的基本概念
2.理解:数据科学基本流程和数据流
3.了解:学习/研究数据科学的目的与意义



第二章 问题与目标

[基本内容]

2.1 用户层面的问题与目标

2.2 数据科学层面的问题与目标

数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘

数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘

[基本要求]
1.掌握:用户层面与数据科学层面的问题与目标分别怎么确定
2.理解:数据科学的问题与目标的含义



第三章 数据获取

[基本内容]

3.1 前提假设与数据方案设计

3.2 总体与抽样

样本的两个必要条件:

  1. 容量不能太小(>30)
  2. 无偏抽样(抽样的过程不受个体性质的影响)

3.3混杂因素和 A/B Testing

辛普森悖论
现象描述: 每个分组里面A的优势都明显,但是总体上B的优势更大。
原因: 混杂因素
就是说,有些因素会对分组的总体造成影响,但是必须认识到这一点,只要适当剔除就可以了。
数据科学导论,数据科学导论,python,大数据,数据挖掘

[基本要求]
1.掌握:数据获取的常用方法
2.理解:前提假设与数据方案设计、总体与抽样、混杂因素和 A/B Testing 的含义



第四章 Python基础

numpy.ndarray 的内存方式优于列表,通常适用于类型一致的数据,支持向量运算

DataFrame基础知识 具体参考DataFrame的使用方法

reshape方法可以重塑数组的维度 reshape()函数详解

#例4-4-9
import pandas as pd
import numpy as np
my_dataframe=pd.DataFrame(np.random.randn(4,5),index=['a','b','c','d'],columns=['A','B','C','D','E'])

my_dataframe[['B','C']]  
my_dataframe[['B']]  #指定访问列2,返回值有列标题,返回值仍是dataframe
my_dataframe['B']    #指定访问列3,返回值无列标题,返回值是序列series
my_dataframe.iloc[1]  #指定访问行1,指定行号
my_dataframe.loc['b']  #指定访问行2,指定行索引


第五章 探索性数据分析

[基本内容]

5.1数据检查

print(my_data.info())  #datdaframe的info方法可以返回对数据的一些总结
x = my_data.groupby(['Pclass'])   #groupby分类获取数据

5.2数据预处理

缺失处理

data.head(10)   #显示数据前10行,不填默认为5

data.isnull()  #检测数据缺失值,返回True或False(缺失)
data.isnull().sum()  #统计缺失值
  • 缺失值丢弃
data.dropna(axis=0)  #行丢弃  (丢弃包含NaN的数据)
data.dropna(axis=1)  #列丢弃
  • 缺失值填充
#字典填充
mean_Age = int(my_data[['Age']].mean()[0])  #取平均年龄
my_dict = {'Age':mean_Age,'Cabin':'haha'}
data1 = data.fillna(my_dict)

#邻近值填充
data2 = data.fillna(method = 'ffill')
#参数method = 'ffill'  缺失值之前最有效的邻近值来填充
#method = 'bfill'  缺失值之后最有效的邻近值来填充

异常处理

冗余处理

data.duplicated()  #duplicated()函数判断是否有重复行,返回true或false
data1 = data.drop_duplicates()  #drop_duplicates()函数直接删除重复行

线性相关分析: Dataframe.corr(method=’pearson’)求线性相关系数,当其接近1或-1,则说明两个数据存在强的线性相关或反相关,有较大冗余;等于0,则没有线性相关。

data.corr(method = 'person')

corr函数详细说明

5.3 描述性统计

位置性测度

#例5-3-3 Pandas数据框求位置性测度举例
import pandas as pd
import numpy as np
data = pd.read_csv("Titanic.csv")
print('对Fare的位置性测度统计结果:')
print('均值: ',        data[['Fare']].mean()[0])
print('中位数: ',      data[['Fare']].median()[0])
print('第25百分位数:', data[['Fare']].quantile(q = 0.25)[0])
print('众数: ',        data[['Fare']].mode().values[0,0])
#mean(),median(),quantile()返回的都是Pandas的series的序列结构,直接用[0]访问
# mode()返回的是DataFrame的结构,所以用二维数组[0,0]的方式来访问

离散型测度

print('对Fare的离散性测度统计结果:')
print('变化范围: [',data[['Fare']].min()[0],'\t',data[['Fare']].max()[0], ']')
print('极差:    ',data[['Fare']].max()[0] - data[['Fare']].min()[0])
print('方差:    ',data[['Fare']].var()[0])
print('标准差:  ',data[['Fare']].std()[0])
print('变异系数:',data[['Fare']].std()[0] / data[['Fare']].mean()[0])

图形化描述性统计

  • 直方图
data[['Fare']].hist(bins=40,figsize=(18,5),xlabelsize=16,ylabelsize=16)

直方图详细用法

  • 箱型图
    数据科学导论,数据科学导论,python,大数据,数据挖掘
data[['Fare']].boxplot()

箱型图详细用法

  • 散点图
scatterplot = pd.plotting.scatter_matrix(data,alpha = 0.3,figsize = (10,10),
                                    diagonal = 'hist',color = colors,marker ='o',grid=True)
# alpha表示透明度
# diagonal = "hist" 选择显示对应特征的直方图
# color =   可以设置颜色
# marker ='o'  散点图案
# grid=True   显示坐标线                              

散点图详细用法

[基本要求]

1.掌握:探索性数据分析的常用方法与一般流程
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
2.理解:数据检查、数据预处理与描述性统计的主要含义



第六章 建模与性能评价

[基本内容]

6.1 统计建模

数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘


代码展示与说明:

数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘
数据科学导论,数据科学导论,python,大数据,数据挖掘

数据科学导论,数据科学导论,python,大数据,数据挖掘

数据科学导论,数据科学导论,python,大数据,数据挖掘

部分代码解析——回归/朴素贝叶斯/决策树/K-means

6.2 回归模型

6.3 朴素贝叶斯模型

6.4 分类模型的性能评价

6.5 决策树

决策树学习

6.6 有监督学习模型与无监督学习模型

K-means学习

6.7 偏差-方差权衡

6.8 参数的网格搜索

6.9 集成学习

[基本要求]
1.掌握:数据科学常用的建模与性能评价的方法;
2.理解:统计建模、回归模型、朴素贝叶斯模型、决策树及典型的机器学习模型;
3.了解:偏差-方差权衡、参数的网格搜索与集成学习

第七章 结果展示

[基本内容]

7.1 面向不同对象的结果展示

7.2 数据可视化

数据科学导论,数据科学导论,python,大数据,数据挖掘

[基本要求]
1.掌握:数据可视化的一般方法;
2.理解:如何根据面向对象的不同进行结果展示;文章来源地址https://www.toymoban.com/news/detail-524877.html

到了这里,关于数据科学导论复习的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据挖掘期末复习-作业(简答)

    作业 1、数据挖掘的定义? 数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。 2、数据挖掘主要有哪些技术方向? 答: 数据挖掘的技术可分为:统计方法、机器学习方法、

    2024年02月09日
    浏览(45)
  • 2023广工数据挖掘复习重点精讲

    数据挖掘定义 数据挖掘任务 分类、聚类、回归、关联、离群点检测、演化、序列模式挖掘 分类:通过分析示例数据库中的数据为每个类别做出准确的描述和建立分析模型或挖掘出分类规则,然后用此规则对其他数据库的记录进行分类 聚类:试图找出数据集中的共性和差异,

    2024年02月08日
    浏览(41)
  • HHU商务数据挖掘期末考点复习

    河海大学商务智能课考试重点梳理 特别鸣谢柳j同学提供的思维导图以及林yt同学的修改补充 思维导图 信息与知识 信息 通过一定的技术和方法,对数据进行集成、分析,挖掘其潜在的规律和内涵,得到的结果是信息 信息是具有商务意义的数据 知识 当信息用于商务决策,并

    2024年02月12日
    浏览(43)
  • 机器学习——数据仓库与数据挖掘——期末复习(简答题)

    1 、试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。 查全率: 真实正例被预测为正例的比例 真正例率: 真实正例被预测为正例的比例 查全率与真正例率是相等的。 查准率:预测为正例的实例中真实正例的比例 假正例率: 真实反例被预测为正例的

    2024年02月10日
    浏览(63)
  • 机器学习——数据仓库与数据挖掘复习(选择题、判断题)

    1. 以下不是分类问题的是(  B )。 A. 用户流失模型 B. 身高和体重关系 C. 信用评分 D. 营销响应 2. 对于回归分析,下列说法错误的是( D ) A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B. 线性相关系数可以是正的,也可以是负的 C. 回归

    2024年02月06日
    浏览(59)
  • 数据挖掘-实战记录(一)糖尿病python数据挖掘及其分析

    一、准备数据 1.查看数据 二、数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 3.研究各特征互相的关系 三、数据预处理 1.去掉唯一属性 2.处理缺失值 a)标记缺失值 b)删除缺失值行数  c

    2024年02月11日
    浏览(53)
  • 数据挖掘|序列模式挖掘及其算法的python实现

    序列(sequence)模式挖掘也称为序列分析。 序列模式发现(Sequential Patterns Discovery)是由R.Agrawal于1995年首先提出的。 序列模式寻找的是事件之间在顺序上的相关性。 例如,“凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒”,就是一个序列关联规则。对于保险

    2024年04月09日
    浏览(60)
  • Python实现图书数据挖掘系统(数据仓库)

    目 录 摘 要 I Abstract II 第1章 绪论 1 1.1选题背景及意义 1 1.2国内外研究现状 1 1.3发展趋势 2 第2章 系统需求分析 3 2.1任务描述 3 2.2需求分析 3 2.3 系统目标 4 第3章 系统概要设计 5 3.1 系统用户分析 5 3.2 系统功能分析 6 3.3 系统算法分析 9 第4章 系统详细设计 12 4.1 数据管理 12 4.2

    2024年02月12日
    浏览(43)
  • 【数据挖掘】使用 Python 分析公共数据【01/10】

            本文讨论了如何使用 Python 使用 Pandas 库分析官方 COVID-19 病例数据。您将看到如何从实际数据集中收集见解,发现乍一看可能不那么明显的信息。特别是,本文中提供的示例说明了如何获取有关疾病在不同国家/地区传播速度的信息。         要继续操作,您需

    2024年02月12日
    浏览(49)
  • Python数据分析与数据挖掘:解析数据的力量

    随着大数据时代的到来,数据分析和数据挖掘已经成为许多行业中不可或缺的一部分。在这个信息爆炸的时代,如何从大量的数据中提取有价值的信息,成为了企业和个人追求的目标。而Python作为一种强大的编程语言,提供了丰富的库和工具,使得数据分析和数据挖掘变得更

    2024年02月11日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包