Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

这篇具有很好参考价值的文章主要介绍了Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

20 理解业务和数据:我们需要做好什么计划?_哔哩哔哩_bilibili

目录

  一、理解业务和数据:我们需要做好什么计划?

1.1两个思想问题

1.2为什么数据挖掘不是万能的

1.3业务背景与目标

1.4把握数据 

1.5总结

二、 准备数据:如何处理出完整、干净的数据?

2.1找到数据

2.2数据探索

2.3数据清洗

2.3.1缺失值处理

2.3.2异常值的处理

2.3.3数据偏差

2.3.4数据标准化 

2.3.5特征选择

 2.4构建训练集和测试集

 三、 数据建模:该如何选择一个适合我需求的算法?

3.1分类问题  

3.2聚类问题

3.3回归问题

3.4关联问题 

3.5模型集成 

3.5.1(bagging)装袋法

3.5.2boosting增强法

3.5.3stacking堆叠法 

四、模型评估:如何确认我们的模型已经达标?

4.1一个关于“训练一个小猪图片分类模型”的例子

4.1.1评估指标:混淆矩阵与准确率指标

4.1.2评估指标:十分重要的业务抽取评估 

4.1.3泛化能力评估

4.1.4其他评估指标

4.1.5评估数据集的处理 

4.2总结

 五、 模型应用:我们的模型是否可以解决业务需求?

5.1模型部署

5.2模型保存

5.3模型的优化

5.4离线应用还是在线应用

5.5一个方案

5.6总结


  一、理解业务和数据:我们需要做好什么计划?

在开始数据挖掘的时候
要确保你对业务及其数据有充分的理解
Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

1.1两个思想问题

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

1.2为什么数据挖掘不是万能的

数据挖掘只能在有限的资源与条件下去提供最大化的解决方案

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

1.3业务背景与目标

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

1.4把握数据 

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

1.5总结

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

二、 准备数据:如何处理出完整、干净的数据?

做好数据的准备工作是获得一个好结果的必由之路,准备数据不是独立存在的,不是说一次性做完数据准备工作就结束了。后面的模型训练和模型评估环节数据的准备相关,当模型出现错误,结果达不到预期,往往需要重新回到数据准备环节进行处理,反复迭代几次最终才能达到期望。

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

2.1找到数据

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

2.2数据探索

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

2.3数据清洗

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

2.3.1缺失值处理

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

2.3.2异常值的处理

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

2.3.3数据偏差

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

2.3.4数据标准化 

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

2.3.5特征选择

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

 2.4构建训练集和测试集

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 三、 数据建模:该如何选择一个适合我需求的算法?

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

3.1分类问题  

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

有监督学习:

概念:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。简单来说,就像有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。

有监督算法常见的有:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。
有监督学习中,比较典型的问题可以分为:输入变量与输出变量均为连续的变量的预测问题称为回归问题(Regression),输出变量为有限个离散变量的预测问题称为分类问题(Classfication),输入变量与输出变量均为变量序列的预测问题称为标注问题

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

3.2聚类问题

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)无监督学习:

概念:训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习和PCA都属于无监督学习的范畴。

无监督算法常见的有:密度估计(densityestimation)、异常检测(anomaly detection)、层次聚类、EM算法、K-Means算法(K均值算法)、DBSCAN算法 等。

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

3.3回归问题

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

不管是线性数据还是非线性数据都可以用回归分析

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

通过学习可以得到一条线,较好的拟合了这些数据,可能不通过任何一个数据点,而是使得所有数据点到这条线的距离都是最短的,或者说损失是最小的。根据这条线,如果给出一个新的x,你就可以算出对应的y是多少。

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

3.4关联问题 

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

3.5模型集成 

模型集成也可以叫做集成学习

思路:合并多个模型来提升整体的效果
三种模型集成的方法:

3.5.1(bagging)装袋法

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

3.5.2boosting增强法

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

3.5.3stacking堆叠法 

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

四、模型评估:如何确认我们的模型已经达标?


模型评估是对模型进行多种维度的评估,来确认模型是否可以放到线上去使用
 

4.1一个关于“训练一个小猪图片分类模型”的例子

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

4.1.1评估指标:混淆矩阵与准确率指标

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

具体是如何构建的,以小猪图为例:

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 选定若干组判定的概率就能得到若干组混淆矩阵:

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

使用这些值画在坐标轴上:横坐标是假正例率,纵坐标是真正例率,这些点连起来形成的曲线我们就称为ROC曲线,ROC曲线下方的面积就是AUC值。

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) ROC曲线和AUC值可以反应一个模型的稳定性,当ROC曲线接近于对角线的时候说明模型的输出极不稳定,模型就更加不准确。

4.1.2评估指标:十分重要的业务抽取评估 

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

4.1.3泛化能力评估

除了要求模型的准确外,模型的泛化能力也值得重视

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

通过两个指标来评估模型泛化能力是好还是好坏

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 以小猪为例:

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

4.1.4其他评估指标

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

4.1.5评估数据集的处理 

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

4.2总结

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 五、 模型应用:我们的模型是否可以解决业务需求?

5.1模型部署

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

5.2模型保存

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

把模型保存好以方便应用,要给模型定义好一个名字,甚至需要维护好一个详细的文档来记录模型所使用的算法,训练数据,评估结果等信息。因为在整个过程中会进行很多次训练,产生很多的模型,或者把很多的模型组合在生产中使用,同时还需要跟后面的重新训练进行效果的对比,有时候模型的训练和部署可能由不同的人来实施,如果保存时没有注意到这些问题,很可能导致出现混乱的情况,所以我们要制定好模型保存的规范,包括存放的位置,名字的定义,模型使用的算法,数据效果等内容,防止发生遗忘,丢失,误删除甚至是服务器崩坏等人为的事故造成不要损失。

5.3模型的优化

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

5.4离线应用还是在线应用

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

5.5一个方案

 通常算法工程师或者数据挖掘工程师,都忙于解决模型问题,到了模型部署阶段就头疼不已,尤其是大规模的需要运行的线上服务可能会耗费很多时间。以下是一个简单的部署方案

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 

5.6总结

  • 记录项目 经验,学会总结反思

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

  • 多考虑一点,如何适用更多的场景

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 比如说在做标签....避免冗余开发

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

  •  监控与迭代

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

模型的监控从以下3个方面入手

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用) 1、结果监控主要是针对一些具体的指标(准确率、召回率等)进行监控,还可以根据具体产出的结果在业务中的效果进行监控 

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 2、人工定期复审

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 3、Case收集与样本积累

Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

通过具体的Case我们可以知道当前的模型存在哪些问题,有些Case可能是因为模型本身的问题造成,有些是因为业务场景的数据发生变化造成的。通过收集的Case进行分析,可以知道我们需要从哪个方向去优化模型。
所以在前期准备数据时遇到的数据准备不充分的情况,也可以在收集环节重点关注,以补全上一版训练时的一些缺失情侣,这样在下次迭代训练时能够有更好的样本集。

 Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

 文章来源地址https://www.toymoban.com/news/detail-452173.html

 

到了这里,关于Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python】数据分析+数据挖掘——探索Pandas中的数据筛选

    当涉及数据处理和分析时,Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法,使得数据的选择、筛选和处理变得简单而高效。在本博客中,我们将重点介绍Pandas中数据筛选的关键知识点,包括条件索引、逻辑操作符、 query() 方法以及

    2024年02月15日
    浏览(58)
  • 【Python】数据分析+数据挖掘——变量列的相关操作

    在Python和Pandas中,变量列操作指的是对DataFrame中的列进行操作,包括但不限于 选择列、重命名列、添加新列、删除列、修改列数据 等操作。这些操作可以帮助我们处理数据、分析数据和进行特征工程等。 概述 下面将会列出一些基本的操作指令 案例数据表university_rank.csv In

    2024年02月16日
    浏览(42)
  • 【Python】数据分析+数据挖掘——探索Pandas中的索引与数据组织

    在数据科学和数据分析领域,Pandas是一个备受喜爱的Python库。它提供了丰富的数据结构和灵活的工具,帮助我们高效地处理和分析数据。其中,索引在Pandas中扮演着关键角色,它是一种强大的数据组织和访问机制,使我们能够更好地理解和操作数据。 本博客将探讨Pandas中与索

    2024年02月15日
    浏览(58)
  • 大数据教材推荐|Python数据挖掘入门、进阶与案例分析

      主   编: 卢滔,张良均,戴浩,李曼,陈四德 出版社: 机械工业出版社 内容提要 本书从实践出发,结合11个 “泰迪杯” 官方推出的赛题,按照赛题的难易程度进行排序,由浅入深地介绍数据挖掘技术在 商务、教育、交通、传媒、旅游、电力、制造业等行业的应用 。因

    2024年02月10日
    浏览(38)
  • Python数据挖掘实用案例——自动售货机销售数据分析与应用

    🚀欢迎来到本文🚀 🍉个人简介:陈童学哦,目前学习C/C++、算法、Python、Java等方向,一个正在慢慢前行的普通人。 🏀系列专栏:陈童学的日记 💡其他专栏:C++STL,感兴趣的小伙伴可以看看。 🎁希望各位→点赞👍 + 收藏⭐️ + 留言📝 ​ ⛱️万物从心起,心动则万物动🏄

    2024年02月08日
    浏览(70)
  • 大数据图书推荐:Python数据分析与挖掘实战(第2版)

    《Python数据分析与挖掘实战(第2版)》的配套学习视频,课程内容共分为基础篇(第1~5章)和实战篇(第6~11章)。      基础篇内容包括数据挖掘的概述、基本流程、常用工具、开发环境,Python数据挖掘的编程基础、数据探索、数据预处理、数据挖掘算法基础等基础知识;

    2024年02月02日
    浏览(47)
  • python数据分析与挖掘实战(商品零售购物篮分析)

            购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业重点研究的问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。        本篇文章

    2024年02月06日
    浏览(64)
  • Python高分大数据分析与挖掘大作业

    1.创建一个Python脚本,命名为test1.py,完成以下功能。 (1)生成两个3×3矩阵,并计算矩阵的乘积。 (2)求矩阵 A= -1 1 0 -4 3 0 1 02 的特征值和特征向量。 (3)设有矩阵 A = 5 2 1 2 01 ,试对其进行奇异分解。 求解过程 2.油气藏的储量密度 Y 与生油门限以下平均地温梯度 X 1、

    2024年02月04日
    浏览(50)
  • 【python】数据挖掘分析清洗——缺失值处理方法汇总

    本文链接:https://blog.csdn.net/weixin_47058355/article/details/128866686 数据挖掘系列: 缺失值处理方法汇总 离散化方法汇总 离群点(异常值)处理方法汇总 标准化(数据归一化)处理方法汇总 特征选择(特征筛选)方法汇总 特征选择筛选(降维)方法汇总 分类预测方法汇总 看了下网络上做

    2024年02月02日
    浏览(48)
  • Python数据挖掘:入门、进阶与实用案例分析——基于非侵入式负荷检测与分解的电力数据挖掘

    本案例将根据已收集到的电力数据,深度挖掘各电力设备的电流、电压和功率等情况,分析各电力设备的实际用电量,进而为电力公司制定电能能源策略提供一定的参考依据。更多详细内容请参考《Python数据挖掘:入门进阶与实用案例分析》一书。 为了更好地监测用电设备的

    2024年02月08日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包