机器学习-特征工程

这篇具有很好参考价值的文章主要介绍了机器学习-特征工程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、特征工程介绍

1.1 什么是特征

数值特征(连续特征)、文本特征(离散特征)机器学习-特征工程,机器学习,人工智能

1.2 特征的种类

机器学习-特征工程,机器学习,人工智能

机器学习-特征工程,机器学习,人工智能

 1.3 特征工程

机器学习-特征工程,机器学习,人工智能

特征是机器学习可疑直接使用的,模型和特征之间是一个循环过程;

实际上特征工程就是将原始数据处理成机器学习可以直接使用数据的过程;

特征工程,降噪、将特征转化为数字,更好构建数学模型。

二、特征预处理

现实中数据集可能杂乱,如存在异常值、缺失值(非常大或小),这个时候是没法做特征工程的,需要数据预处理后,在做特征工程,这样效果更好!

特征预处理的⽅法

2.1 缺失值处理

⼀般缺失值可以⽤均值、中位数、众数等填充,或者直接将缺失值当做⼀个 特定的值来对待。还可以利⽤⼀些复杂的插值⽅法,如样条插值等来填充缺失值。如果缺 失值不多,还可以将包含缺失值的样本丢弃。

2.2 归⼀化

不同特征之间由于量纲不⼀样,数值可能相差很⼤,直接将这些差别极⼤的特征 灌⼊模型,会导致数值⼩的特征根本不起作⽤,⼀般我们要对数值特征进⾏归⼀化处理, 常⽤的归⼀化⽅法有min-max归⼀化、分位数归⼀化、正态分布归⼀化、⾏归⼀化等。机器学习-特征工程,机器学习,人工智能

2.3异常值与数值截断

  对于数值型特征,可能会存在异常值,包括异常⼤和异常⼩的值。在统计数据处理中有所谓3σ准则,即对于服从正态分布的随机变量,该变量的数值分布在 (μ-3σ,μ+3σ)中的概率为0.9974,这时可以将超出该范围的值看成异常值,采⽤向上截断 (⽤μ-3σ)和向下截断(⽤μ+3σ)的⽅法来为异常值赋予新的值。对于真实业务场景,可能还要根据特征变量的实际意义来进⾏处理。

2.4⾮线性变换

有时某个属性不同值之间差别较⼤(⽐如年收⼊),有时为了让模型具备更多的⾮线性能⼒(特别是对于线性模型),这两种情况下都需要对特征进⾏⾮线性变换,⽐如值取 对数(值都是正的情况下)作为最终的特征,也可以采⽤多项式、⾼斯变换、logistic变换等转化为⾮线性特征。

 三、特征构建

所谓特征构建是从原始数据中提取特征,将原始数据空间映射到新的特征向量空间,使得在新的特征空间中,模型能够更好地学习数据中的规律。

离散特征

1.1 one-hot编码(n-hot)

1.2 计数编码

次数来编码,如所有样本中,A歌手出现的次数,A歌手直接转化为次数。

1.3 散列编码(映射到低维向量空间)

1.4 离散特征之间交叉(⽤户地域与视频语⾔)

1.5 离散特征与连续特征交叉(视频语⾔与⽤户年龄)

连续(数值)特征

1) 直接使⽤

2) 离散化(分桶)

3) 特征交叉(⾮线性函数)

时间特征

1) 转化为数值

离基准时间,如离1900年多少年,

2) 将时间离散化(是否⼯作⽇、周⼏和一天的那个时间点)

是否为周日(0或者1)

地理位置特征

1) ⾏政区划表示

1-北京,2-天津....  其实one-hot编码也是可以的

2) 经纬度表示

二维向量来表示

3) 距离表示

商家离你的距离,一维数字来表示,近的会优先表示

⽂本特征

TF-IDF、LDA、Word2Vec

富媒体特征

领域相关的⽅法

嵌⼊特征

基于内容的嵌⼊、基于⾏为的嵌⼊

四、特征选择

特征构建,基于已有的数据构建出各种各样的特征,构建出的特种可能会很多。有些特征,对模型预测有帮助;有些特征对模型预测帮助很小。我们需要选择出对模型有预测作用的特征。这就对特征选择。

特征选择:

特征选择是指从所有构建的特征中选择出⼀个⼦集,⽤于模型训练与学习的过程。特征选择不光要评估特征本身,更需要评估特征与模型的匹配度,评估特征之间的相关性、评估特征对最终的预测⽬标 的精准度的贡献。特征没有最好的,只有跟应⽤场景和模型合适的,特 征选择对于构建机器学习应⽤是⾮常重要的⼀环。

特征选择主要有以下两个⽬的:

•简化模型,节省存储和计算开销,让模型更易于理解和使⽤;

•减少特征数量、降维,改善通⽤性、降低过拟合的⻛险。

 特征选择的方法

3.1 基于统计量的选择

1)选择⽅差⼤的特征

方差是描述数据波动情况。如果样本中性别全是女,那这个特征是没有波动的,没有意义的,那么该特征可以去掉。

2)⽪尔逊相关系数

是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。1正相关,-1负相关。

特征变量和目标变量之间的⽪尔逊相关系数绝对值越大,则特征变量价值就越大。若绝对值为零,则没有相关性,可以去掉这个特征变量。

⽪尔逊相关系数也可以评估,特征变量之间的相关关系。若绝对值很大,一个特征可以推导出另一个特征,则没有必要放另一个特征去训练,不然会特征冗余。

3)覆盖率

假如一万个样本,只有几个样本,性别有数据,那么这样覆盖率很小,特征变量数据很多缺失。这样的特征没有必要做缺失值处理。

4)假设检验(假设特征与⽬标变量独⽴)

假设特征与⽬标变量独⽴,可以使用卡方等假设检验方法,来检验假设是否成立。若成立就要

5)互信息(选择互信息⼤的)

互信息⼤,特征变量和目标变量相关性就越大。

 3.2 基于模型选择

1) 基于模型参数(树模型可以选择特征)

2) ⼦集选择

先一个特征训练,选最好的模型效果A特征。在以A特征基础上,两特征组合,选最好的两特征组合,依次类推......  从小到多,看模型效果。

3)逆向选择特征

五、特征评估

特征评估

是在将特征灌⼊模型进⾏训练之前,事先评估特征的价值, 提前发现可能存在的问题,及时解决,避免将有问题的特征导⼊模型, 导致训练过程冗⻓⽽得不到好的结果。特征评估是对选择好的特征进⾏整体评价,⽽不是特征选择中所谓的对单个特征重要性的评判。

特征评估的⽅法

特征的覆盖率:是指有多少⽐例的样本可以构建出相关特征。  

特征的维度:衡量的是模型的表达能⼒,维度越⾼,模型表达能⼒越强(VC维)。  

定性分析:是指构建的特征是否跟⽤户⾏为是冲突的,可以拿熟悉的样本来做验证。(如年收 ⼊与是否违约)  

定量分析:通过常⽤的离线评估指标,如Precision、Recall、AUC等等来验证模型的效果。文章来源地址https://www.toymoban.com/news/detail-736605.html

到了这里,关于机器学习-特征工程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【兔子王赠书第7期】机器学习与人工智能实战:基于业务场景的工程应用

    新的一周开始啦,本周博主给大家带来《机器学习与人工智能实战:基于业务场景的工程应用》,感兴趣的小伙伴快来看看吧! 下面是一个使用Python实现简单线性回归模型的代码示例: 在上面的代码中, SimpleLinearRegression 类是我们实现的简单线性回归模型。在 fit 方法中,我

    2024年02月05日
    浏览(43)
  • 人工智能学习5(特征抽取)

    编译环境:PyCharm 特征选择和特征抽取都减少了数据的维度(降维),但是特征选择是得到原有特征的子集,特征抽取是将原有特征结果函数映射转化为新的特征。 特征抽取分为无监督特征抽取和有监督特征抽取。 无监督 : 没有标签 PCA降维 ( 主成分分析 )基本思想:构造一系

    2024年02月03日
    浏览(40)
  • 机器学习入门教学——人工智能、机器学习、深度学习

    1、人工智能 人工智能相当于人类的代理人,我们现在所接触到的人工智能基本上都是弱AI,主要作用是正确解释从外部获得的数据,并对这些数据加以学习和利用,以便灵活的实现特定目标和任务。 例如: 阿尔法狗、智能汽车 简单来说: 人工智能使机器像人类一样进行感

    2024年02月09日
    浏览(91)
  • 人工智能|机器学习——基于机器学习的舌苔检测

    基于深度学习的舌苔检测毕设留档.zip资源-CSDN文库 目前随着人们生活水平的不断提高,对于中医主张的理念越来越认可,对中医的需求也越来越多。在诊断中,中医通过观察人的舌头的舌质、苔质等舌象特征,了解人体内的体质信息从而对症下药。 传统中医的舌诊主要依赖

    2024年02月22日
    浏览(70)
  • 【机器学习】人工智能概述

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.人工智能概述 1.1 机器学习、人工智能与深度学习 1.2 机器学习、深度学习能做些什么

    2024年02月09日
    浏览(55)
  • 机器学习--人工智能概述

    入门人工智能,了解人工智能是什么。为啥发展起来,用途是什么,是最重要也是最关键的事情。大致有以下思路。 人工智能发展历程 机器学习定义以及应用场景 监督学习,无监督学习 监督学习中的分类、回归特点 知道机器学习的开发流程 人工智能在现实生活中的应用

    2024年01月19日
    浏览(60)
  • 人工智能与机器学习

    欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。 专栏:《机器学习》 ​ ​ ☞什么是人工智能、机器学习、深度学习 人工智能这个概念诞生于1956年的达特茅斯

    2024年02月02日
    浏览(63)
  • 人工智能与机器人|机器学习

    原文链接: https://mp.weixin.qq.com/s/PB_n8woxdsWPtrmL8BbehA 机器学习下包含神经网络、深度学习等,他们之间的关系表示如图2-7所示。 图2-7 关系图 那么什么是机器学习、深度学习、他们的区别又是什么呢? 2.7.1 什么是机器学习? 机器学习是 人工智能 (AI) 和计算机科学的一个分支,

    2024年02月06日
    浏览(79)
  • 人工智能、机器学习、深度学习的区别

    人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习。 人工智能是一门以计算机科学为基础,融合了数学、神经学、心理学、控制学等多个科目的交叉学科。 人工智能是一门致力于使计算机能够模拟、模仿人类智能的学

    2024年02月08日
    浏览(56)
  • 人工智能与开源机器学习框架

    链接:华为机考原题 TensorFlow是一个开源的机器学习框架,由Google开发和维护。它提供了一个针对神经网络和深度学习的强大工具集,能够帮助开发人员构建和训练各种机器学习模型。 TensorFlow的基本概念包括: 张量(Tensor):张量是TensorFlow中的核心数据结构,它表示多维数

    2024年02月22日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包