【机器学习300问】14、什么是特征工程?

这篇具有很好参考价值的文章主要介绍了【机器学习300问】14、什么是特征工程?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        当我学习到这个知识点的时候十分困惑,因为从名字中我完全无法理解这个什么东西。于是呢我就去问了一下维基百科,下面是他的回答:

        特征工程(英语:feature engineering)又称特征提取(英语:feature extraction)或特征发现(英语:feature discovery)是使用领域知识从原始数据中提取特征(特征、属性、特性)的过程。 与仅向机器学习提供原始数据相比,其动机是使用这些额外的功能来提高机器学习过程的结果质量。

        说实话,当我看完段文字后,我心情是复杂的,因为我觉得这不但没有解决我原有的困惑,反而更加迷糊了。如果你和我有一样的困扰,那么我试试用通俗点的语言和一些小例子来让我们一起理解什么是特征工程。

一、什么是特征?

        要理解特征工程必须先知道什么是特征。在我之前的文章中我详细的介绍过什么是特征,你可以去瞧瞧看,在这里我简单用几个例子给大家说明。

        【机器学习300问】6、什么是机器学习中的特征量?

例一:一个人有两只手、两只腿、一个头、能使用工具、会奔跑。在这句话中,这些用来描述人的词语就是特征。

例二:一套房子的信息中有房屋宽度、房屋深度、房间数量、楼层数量、地理位置、房屋年限。这些用来描述房子的词语就是特征。

        把上述的例子用一个二维表格来表示的话就可以画成这样:

房屋特征表
房屋宽度 房屋深度 房间数量 楼层数量 地理位置 房屋年限
房1 10 10 4 1 市中心 10
房2 8 12 4 1 市中心 5
房3 9 9 3 1 郊区 2

        特征就是这样的表格中的每一列,一列就是一个特征!

二、什么是特征工程?

        上面的这个表中有很多列,这些原本就在表中的列,我们叫他原始数据,或者叫他原始特征。特征工程其中的“工程”两个字就是说要对这个特征做写什么操作。那么做什么操作呢?做这些操作的目的是什么呢?如果搞懂了这两个问题,那么你就真正了解了什么是特征工程。

(1)特征工程要处理的数据常见的形式

  • 结构化数据,结构化数据类型可以看做关系型数据库的一张表(就像上面这张表),每一列都有很清晰的定义,包含了数值型、类别型两种基本类型。每一行数据表示一个样本信息。
  • 非结构化数据,非结构化数据主要包括文本、图像、音频、视频数据,其中包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每一条数据的大小各不相同。

(2)特征工程具体要做哪些操作

  1. 数据清洗:去除无效、缺失、重复的数据,处理异常值,填充缺失值等。

  2. 特征选择:确定哪些特征对模型预测目标变量最有价值,剔除冗余、无关或者噪声特征。

  3. 特征构造:基于领域知识或数据分析结果创建新的特征,例如在上面表中,我们只知道房屋的宽度和深度两个特征,但如果我想预测房屋的房价,那么面积 = 宽度 * 深度就更贴合我需要分析的问题。“面积”这个特征就是我构造出来的。

  4. 特征缩放:对特征进行归一化或标准化处理,确保不同尺度的特征在模型训练中具备可比性。

  5. 特征组合:将多个特征通过数学运算(如乘法、加法、逻辑运算等)组合成更高阶的特征。

(3)特征工程的目的是什么

        特征工程是从原始数据中提取、转换、构建具有代表性和预测能力的新特征的过程。特征工程的主要目的是提取出对预测模型有用的信息,这些信息以特征的形式表现出来。特征在机器学习模型中被用来预测或分类数据,因此它们必须包含足够的有用信息,以帮助模型做出准确的预测或分类。文章来源地址https://www.toymoban.com/news/detail-814166.html

到了这里,关于【机器学习300问】14、什么是特征工程?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【赠书第4期】机器学习与人工智能实战:基于业务场景的工程应用

    文章目录 前言 1 机器学习基础知识 2 人工智能基础知识 3 机器学习和人工智能的实战案例 4 总结 5 推荐图书 6 粉丝福利 机器学习 与 人工智能 是当前最热门的领域之一,也是未来发展的方向。随着科技的不断进步,越来越多的企业开始关注和投入机器学习和人工智能领域。

    2024年02月05日
    浏览(66)
  • 人工智能、机器学习、深度学习之间的关系是什么?

    人工智能(Artificial Intelligence,AI)是指通过计算机技术来实现人类的智能行为和智能思维的一种技术手段。它的传统研究方向是从人类的智能角度出发,通过模拟和实现人类的智能能力,比如语言理解、图像识别、推理、决策等。而机器学习则是人工智能的一个重要分支,是

    2024年02月03日
    浏览(58)
  • 机器学习、深度学习、人工智能三者之间究竟是什么关系?

    人工智能(Artificial Intelligence):人工智能是一个广泛的概念,指的是使计算机系统具备像人类一样的智能和能力。人工智能涵盖了包括机器学习和深度学习在内的各种方法和技术,旨在让计算机能够感知、理解、推理、学习和解决问题。人工智能的目标是模拟和实现人类智

    2024年02月03日
    浏览(46)
  • 软件工程中的人工智能与机器学习:未来研发效能的驱动力

    人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)在过去的几年里已经成为软件工程中最热门的话题之一。随着数据量的增加,计算能力的提升以及算法的创新,人工智能和机器学习技术已经成为软件开发过程中不可或缺的一部分。 在软件工程中,人工智能和机器学

    2024年02月21日
    浏览(50)
  • 【兔子王赠书第7期】机器学习与人工智能实战:基于业务场景的工程应用

    新的一周开始啦,本周博主给大家带来《机器学习与人工智能实战:基于业务场景的工程应用》,感兴趣的小伙伴快来看看吧! 下面是一个使用Python实现简单线性回归模型的代码示例: 在上面的代码中, SimpleLinearRegression 类是我们实现的简单线性回归模型。在 fit 方法中,我

    2024年02月05日
    浏览(43)
  • 2023什么电脑配置适合机器学习和人工智能

    机器学习和人工智能应用有多种类型——从传统的回归模型、非神经网络分类器和以 Python SciKitLearn 和 R 语言的功能为代表的统计模型,到使用 PyTorch 和 TensorFlow 等框架的深度学习模型. 在这些不同类型的 ML/AI 模型中,也可能存在显着差异。“最佳”硬件将遵循一些标准模式

    2023年04月24日
    浏览(99)
  • 人工智能学习5(特征抽取)

    编译环境:PyCharm 特征选择和特征抽取都减少了数据的维度(降维),但是特征选择是得到原有特征的子集,特征抽取是将原有特征结果函数映射转化为新的特征。 特征抽取分为无监督特征抽取和有监督特征抽取。 无监督 : 没有标签 PCA降维 ( 主成分分析 )基本思想:构造一系

    2024年02月03日
    浏览(41)
  • 【机器学习300问】1、什么是机器学习?

            维基百科定义:机器学习是一门系统的学科,它关注设计和开发算法,使得机器的行为随着经验数据的累积而进化,经验数据通常是传感器数据或数据库记录。         百度百科定义:         机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、

    2024年01月23日
    浏览(39)
  • 【机器学习300问】4、机器学习到底在学习什么?

            首先我们先了解一个前置问题,再回答机器学习到底在学习什么。         求解机器学习问题的步骤可以分为“学习”和“推理”两个阶段。首先,在学习阶段进行模型的学习,然后,在推理阶段用学到的模型对未知的数据进行推理。 总结一下: 学习阶段 :

    2024年02月02日
    浏览(47)
  • 机器学习基础之《特征工程(2)—特征工程介绍、特征抽取》

    一、什么是特征工程 机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

    2024年02月13日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包