数据分析时,进行数据建模该如何筛选关键特征?

这篇具有很好参考价值的文章主要介绍了数据分析时,进行数据建模该如何筛选关键特征?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.为什么要做关键特征筛选?
在数据量与日俱增的时代,我们收集到的数据越来越多,能运用到数据分析挖掘的数据也逐渐丰富起来,但同时,我们也面临着如何从庞大的数据中筛选出与我们业务息息相关的数据。(大背景)从数据中挖掘潜在的规律,辅助我们在实际业务中进行决策。
在现实任务中经常会遇到维数灾难问题,属性过多造成的。可以降低学习任务的难度,不相关的特征就是噪声。它有助于减少数据集的大小和复杂性,反过来使我们可以用更少的时间来训练模型,更少的计算成本来训练机器学习模型和进行推理;具有较少特征的简单机器学习模型更容易理解和解释;它可以避免过拟合。因为特征越多,模型就越复杂,这就带来了维数的麻烦 (错误会随着特征数量的增加而增加) 。
特征选择目的:1)减少特征数量、降维,使模型泛化能力更强,加速模型训练,减少过拟合;2)增强对特征和特征值之间的理解。
2.做关键特征筛选的常见问题有哪些?
问题在于,1)在面对未知领域的时候,很难有足够的知识去判断特征与我们的目标是不是相关,特征与特征之间是不是相关。这时候,就需要一些数学和工程上的办法来帮助我们尽可能地把恰好需要的特征选择出来。2)特征与特征之间往往不是独立的,因此特征选择往往把要选择的特征当作一个子集进行搜索(单独特征最优组合)。3)样本与样本之间往往存在特征分布的重叠。(基于类内类间的特征选择方法不能反映样本分布重叠的情况)。
3.做数据筛选的3类方法
选择哪种特征选择方法?为自己打造一个投票选择器
实现我们讨论过的几种特征选择方法。您的选择可能取决于时间、计算资源和数据度量级别等因素。只要运行尽可能多的不同方法就可以了。然后,对于每个特征,记下建议将此特征保留在数据集中的选择方法的百分比。如果超过50%的方法投票赞成保留,则保留它该特征,否则,请丢弃它。
这种方法背后的思想是,虽然一些方法可能由于其内在的偏见而对某些特征做出错误的判断,但多种方法的集合应该可以正确地获得有用的特征集。
1)统计方法
►定义:其最大优势是不依赖于模型,仅从特征的角度来挖掘其价值高低,从而实现特征排序及选择。由于它们与模型无关,因此它们也更通用;它们不会对任何特定的算法进行过度匹配。它们也很容易解释:如果一个特征与目标没有统计关系,它就会被丢弃。其核心在于对特征进行排序——按照特征价值高低排序后,即可实现任意比例/数量的特征选择或剔除。
缺点是,他们分别单独查看每个特征,评估其与目标的关系。这使得他们很容易放弃一些有用的特征,而这些特征本身是目标的弱预测因子,但与其他特征结合后会为模型增加很多价值。
►包含:方差选择、方差分析、相关系数
►适用场景:/
►优势/各种方法之间的对比或差异:
方差选择,计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。优点:计算量较小,只需计算所有特征的方差即可;可作为第一次特征选择对特征进行过滤,降低后续算法的计算成本。缺点:比较依赖阈值的选取,如果阈值选取过高,会筛选掉许多有用特征;阈值过低,又会留下较多无用数据;一些作用较大的数据可能因为数据不平衡等问题出现方差较小的情况,而这些特征容易被方差过滤法给误删了;只能用于离散型数据,对于连续型数据,应先划分区间,将连续性化成离散型,再进行方差过滤。
►适用场景:由于方差过滤法的缺点较大,所以往往是先采用方差过滤法将一些变化极小或为无变化的特征先行筛选掉,减少一部分数据,然后再采用模型方法进行二次筛选。
方差分析,是一种假设检验的方法,它是分析目标在于检验各组的均值间差异是否在统计意义上显著。优点:(1)它不受统计组数的限制,可接受大样本统计数量进行多重比较,能够充分地利用试验所提供数据来估计试验误差,可以将各因素对试验指标的影响从试验误差中分离开,是一种定量分析方法,可比性强,分析精度高;(2)方差分析可以考察多个因素的交互作用。缺点:(1)涉及到全部数据,计算复杂;(2)前提条件较为苛刻,需要数据样本之间相互独立,且满足正态分布和方差齐性,所以需要对数据进行方差齐性检验。
相关系数:其主要思想是通过计算各个特征之间的相关系数,筛选出与目标变量相关性最高的特征。优点是,最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性。速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。缺陷是,它假设两个变量都是正态分布的,并且只测量它们之间的线性相关性。当相关性为非线性时,皮尔逊r将无法检测到它,即使它真的很强。
效果:简单描述操作+最终效果图
方差选择
数据分析时,进行数据建模该如何筛选关键特征?

输出大于阈值的字段名为重要特征。

方差分析
数据分析时,进行数据建模该如何筛选关键特征?

相关系数
数据分析时,进行数据建模该如何筛选关键特征?

2)模型方法
►定义: 它使用一个模型对不同的特征子集进行评分,最终选择最佳的特征。每个新子集用于训练一个模型,该模型的性能随后在保持集上进行评估。选择产生最佳模型性能的特征子集。
►包含:逻辑回归分类、随机森林分类、梯度提升决策树分类、ReliefF、RFE
►适用场景:如果我们并不了解业务,或者有成千上万的特征,那我们也可以使用算法来帮助我们。或者,可以让算法先帮助我们筛选过一遍特征,然后在少量的特征中,我们再根据业务常识来选择更少量的特征。
►优势/各种方法之间的对比或差异:
逻辑回归分类、随机森林、RFE等,可以帮助我们识别哪些变量对于分类预测最有用。这可以提高模型的准确性。将特征选择看做是一个黑盒问题:即仅需指定目标函数(这个目标函数一般就是特定模型下的评估指标),通过一定方法实现这个目标函数最大化,而不关心其内部实现的问题。进一步地,从具体实现的角度来看,给定一个含有N个特征的特征选择问题,可将其抽象为从中选择最优的K个特征子集从而实现目标函数取值最优。
优点是,为特定类型的模型提供性能最佳的特征集。缺点是,可能会过度适用于模型类型,如果希望使用不同的机器学习模型尝试它们,则它们生成的特征子集可能不会泛化。计算量大。他们需要训练大量的模型,这可能需要一些时间和计算能力。
►效果:简单描述操作+最终效果图
逻辑回归
数据分析时,进行数据建模该如何筛选关键特征?

随机森林
数据分析时,进行数据建模该如何筛选关键特征?

梯度提升决策树
数据分析时,进行数据建模该如何筛选关键特征?

ReliefF
数据分析时,进行数据建模该如何筛选关键特征?

RFE
数据分析时,进行数据建模该如何筛选关键特征?

仅展示重要特征。

3)集成方法
►定义:python分析重要性的几个工具。
►包含:Shap、Permutation Importance、Boruta、Partial Dependence Plots
►适用场景:/
►优势/各种方法之间的对比或差异:
Shap做特征筛选,能够提高性能,但缺点是时间成本高。参数组合越多,或者选择过程越准确,持续时间越长。这是我们实际上无法克服的物理限制。
Permutation Importance适用于表格型数据,其对于特征重要性的评判取决于该特征被随机重排后,模型表现评分的下降程度。优点是,计算速度快;应用广泛、易于理解;与我们期望一个特征重要性度量所具有的性质一致。
Boruta是一种简单但统计上很优雅的算法。它使用来自随机森林模型的特征重要性度量来选择特征的最佳子集,并通过引入两个极好的思路来实现。Boruta对特征进行了精确的分类,而不是排序,这与许多其他特征选择方法形成了鲜明对比。
Partial Dependence Plots跟排列重要性一样,部分依赖图也是要在拟合出模型之后才能进行计算。
►效果:简单描述操作+最终效果图
Permutation Importance
数据分析时,进行数据建模该如何筛选关键特征?

Boruta
数据分析时,进行数据建模该如何筛选关键特征?

Shap
数据分析时,进行数据建模该如何筛选关键特征?

Partial Dependence Plots
数据分析时,进行数据建模该如何筛选关键特征?

波动大说明特征越重要。文章来源地址https://www.toymoban.com/news/detail-411981.html

到了这里,关于数据分析时,进行数据建模该如何筛选关键特征?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 用Python做数据分析之数据筛选及分类汇总

    1、按条件筛选(与,或,非) 为数据筛选,使用与,或,非三个条件配合大于,小于和等于对数据进行筛选,并进行计数和求和。与 excel 中的筛选功能和 countifs 和 sumifs 功能相似。 Excel 数据目录下提供了“筛选”功能,用于对数据表按不同的条件进行筛选。Python 中使用

    2024年02月07日
    浏览(28)
  • 【Python】数据分析+数据挖掘——探索Pandas中的数据筛选

    当涉及数据处理和分析时,Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法,使得数据的选择、筛选和处理变得简单而高效。在本博客中,我们将重点介绍Pandas中数据筛选的关键知识点,包括条件索引、逻辑操作符、 query() 方法以及

    2024年02月15日
    浏览(49)
  • 【产品分析】如何利用咖喱外卖店铺数据进行营销分析Python

    在外卖平台上经营咖喱店铺时,海量的订单数据和用户评价等信息将成为商家优化营销策略的重要依据。然而,面对大量的数据,如果没有合适的分析方法,这些数据就变得毫无意义。本文将介绍如何使用Python中常用的可视化工具和方法,对咖喱店铺数据进行分析和可视化展

    2024年02月02日
    浏览(55)
  • 【生态经济学】利用R语言进行经济学研究技术——从数据的收集与清洗、综合建模评价、数据的分析与可视化、因果推断等方面入手

    查看原文 如何快速掌握利用R语言进行经济学研究技术——从数据的收集与清洗、综合建模评价、数据的分析与可视化、因果推断等方面入手 近年来,人工智能领域已经取得突破性进展,对经济社会各个领域都产生了重大影响,结合了统计学、数据科学和计算机科学的机器学

    2024年02月12日
    浏览(43)
  • 如何利用量化接口进行数据分析和计算?

    量化交易作为一种利用数据和算法进行投资的方式,数据分析和计算是量化交易的核心。量化接口作为连接量化交易者和交易所的桥梁,提供了获取市场数据和执行交易指令的功能,为量化交易的数据分析和计算提供了基础。 一、数据获取: 市场行情数据:通过量化接口,

    2024年02月14日
    浏览(40)
  • 【python】数据挖掘分析清洗——特征选择(特征筛选)方法汇总

    本文链接:https://blog.csdn.net/weixin_47058355/article/details/130400400?spm=1001.2014.3001.5501 数据挖掘系列: 缺失值处理方法汇总 离散化方法汇总 离群点(异常值)处理方法汇总 标准化(数据归一化)处理方法汇总 特征选择(特征筛选)方法汇总 特征选择筛选(降维)方法汇总 分类预测方法汇

    2024年02月15日
    浏览(46)
  • 【财务数据分析经验分享】如何进行三大报表的年度解读

    很快就要到年底了,大家又要开始进行年度经营数据分析了。今天我就用一个例子来演示财务数据分析三张报表的年度分析。 为了更便捷的从年度来分析三大报表,我分别以同样的基本思路对三大报表开发出三张年度分析报表: 1、 按年度来进行筛选分析; 2、 首先可以看到

    2024年02月01日
    浏览(29)
  • 如何将ChatGPT4与Python近红外光谱数据分析及机器学习与深度学习建模完美融合

    2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。202

    2024年01月16日
    浏览(57)
  • Python 2.x 中如何使用pandas模块进行数据分析

    Python 2.x 中如何使用pandas模块进行数据分析 概述: 在数据分析和数据处理过程中,pandas是一个非常强大且常用的Python库。它提供了数据结构和数据分析工具,可以实现快速高效的数据处理和分析。本文将介绍如何在Python 2.x中使用pandas进行数据分析,并为读者提供一些代码示例

    2024年02月13日
    浏览(48)
  • 【数据挖掘与人工智能可视化分析】可视化分析:如何通过可视化技术进行数据挖掘和发现

    作者:禅与计算机程序设计艺术 数据挖掘(Data Mining)和人工智能(Artificial Intelligence,AI)已经成为当今社会热点话题。这两者之间的结合也带来了很多挑战。作为数据科学家、机器学习工程师、深度学习研究员等,掌握了数据的获取、清洗、处理、建模、应用这些技术的前提下,

    2024年02月07日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包