数据挖掘(3)特征化

这篇具有很好参考价值的文章主要介绍了数据挖掘(3)特征化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据挖掘(3)特征化,数据挖掘,人工智能

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。

DM的分类:

  • 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣的一般性质。
    • 用以产生数据的特征化和比较描述:
      • 特征化:提供给定数据集的简洁汇总(一个数据集)。
      • 比较(区分):提供两个或多个数据集的比较描述,其中一个为主数据集,其他数据集与其进行对比分析。
  • 预测式DM:分析数据,建立模型,试图预测新数据集的行为。

一、数据概化与基于汇总的特征化

1. 数据概化

  1. 更一般的(而不是较低的) 抽象层描述数据。
  2. 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。
    • 例如:把location维度上将地区概化为城市,甚至是省份
  3. 方法
    • 数据立方体(或OLAP)方法
    • 面向属性的归纳方法

数据挖掘(3)特征化,数据挖掘,人工智能 

2. 数据立方体(OLAP)方法

  1. 在数据立方体上进行计算和存储结果
  2. 优点:
    1. 数据概化的一种有效实现。
    2. 能计算多种不同的度量值。(count、ave、sum、min、max)
    3. 概化与特征分析通过一系列的数据立方体操作完成,上钻、下钻操作。数据挖掘(3)特征化,数据挖掘,人工智能
  3. 限制:
    * 只能为 非数值类型(离散的)维产生的概念分层。
    * 非数值类型:名义型、序数型(属于离散化的属性)。
    缺乏智能分析,不能自动确定分析中该使用哪些维,概化到哪个层次。

3. 面向属性归纳(AOI)(重点)

  1. 前提:有大量不同的取值
  2. 可处理连续性数据,比数据立方体更加智能
  3. 基本思想:
    1. 首先使用DB 收集任务相关的数据。
    2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    3. 基本思想:
      1. 首先使用DB 收集任务相关的数据。
      2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    4. 属性删除(重点)
      1. 一个属性有许多不同数值:且
        • 该属性没有定义概化操作符(没有概念分层)。
          • 一个属性拥有许多不同的数值,却没有定义对他的泛化操作。
        • 或较高层概念可以用其他属性表示。
          • eg:出生日期:birth_date:1995-1-1,出生日期是年龄的更高层次,可以将其表现,所以可以将birth_date删除。
    5. 属性概化(重点)
      1. 若一个属性有许多不同数值,且:在该属性上存在概化操作符(有概念分层),则应当选择该概化操作符,并逐层进行概化。
      2. 概化操作符:层次性,比如birth_day:年月日。

4.特征化(面向属性归纳)

两种方法:

  1. 属性概化阈值控制:(控制属性取值个数)
    • 取值范围:[2-8]
    • 属性的不同值个数大于属性概化阈值,则应当删除或概化。
    • 概化层次太高,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
  2. 概化关系阈值控制:(控制最后的广义元组数量)
    • 控制最后关系、规则的大小。(最后生成广义元组)
    • 设置阈值:[10-30]
    • 概化关系中不同元组的个数超过属性概化阈值,则概化。
    • 概化关系太少,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
    • 概化到最高层(最底层)也不满足,则需要将其删除。
  3. 数据挖掘(3)特征化,数据挖掘,人工智能

数据挖掘(3)特征化,数据挖掘,人工智能 

5.例子分析

数据挖掘(3)特征化,数据挖掘,人工智能

数据挖掘(3)特征化,数据挖掘,人工智能 数据挖掘(3)特征化,数据挖掘,人工智能

 二、属性相关分析(重点)

  1. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  2. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。
  3. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  4. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。

1. 属性相关分析法基本思想

  1. 基本思想:给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。
  2. 常用的度量:信息增益、相关系数、GINI索引、不确定性

2.信息增益法(重点)

  1. 信息增益法:

    1. 决策树归纳学习算法(ID3,C4.5),删除信息量较少的属性,保留信息量较大的属性。
  2. ID3算法

    1. 概念为启发函数。
      •    数据挖掘(3)特征化,数据挖掘,人工智能
      • 熵越大、携带的信息量越大、越不容易被预测

    2. 选择具有最大信息增益的属性作为当前划分节点。
    3. 基本原理:
      • 根据类别已知的训练数据集构造一颗决策树;根据决策树再对类别未知的数据对象进行分类。
      • 每一步选择都是选择最大信息增益。
    4. 决策树:每个节点的选择:选择信息增益最大的属性为当前节点。数据挖掘(3)特征化,数据挖掘,人工智能数据挖掘(3)特征化,数据挖掘,人工智能
    5. 本步骤只是求出不确定性数据挖掘(3)特征化,数据挖掘,人工智能数据挖掘(3)特征化,数据挖掘,人工智能

 文章来源地址https://www.toymoban.com/news/detail-727493.html

3. 通过熵来进行选择

数据挖掘(3)特征化,数据挖掘,人工智能

数据挖掘(3)特征化,数据挖掘,人工智能

数据挖掘(3)特征化,数据挖掘,人工智能 

4.属性相关分析步骤

  1. 数据收集:建立目标数据集,以及对比数据集,目标数据集与对比数据集不相交。
  2. 利用保守的AOI方法进行属性相关分析。对初始的数据集进行删除、概化等操作形成候选数据集。
  3. 删除不相关、弱相关的属性。如信息增益度量
  4. 使用AOI产生概念描述:利用更严格的属性概化控制阈值进行属性的归纳。
    • 任务是:概念描述,使用初始目标数据集。
    • 任务是:比较概念描述,使用初始目标数据集,对比数据集。

三、挖掘类比较:区分不同的类

数据挖掘(3)特征化,数据挖掘,人工智能

数据挖掘(3)特征化,数据挖掘,人工智能 

  1. 比较概念中,同一个属性要概化到同一个层次。
  2. d—权
    • qa所包含的Cj中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比数据挖掘(3)特征化,数据挖掘,人工智能

数据挖掘(3)特征化,数据挖掘,人工智能

四、常见的统计度量指标

数据挖掘(3)特征化,数据挖掘,人工智能

  1. 中心趋势:均值、中位数、模(众数)
    • 众数:如果每个数值仅出现1次则无众数
  2. 数据分布:四分位数、方差、标准差
    • 四分位数:
      • 数值下数据集合的第k个百分位数。
      • 中位数:第50个百分位数
      • 第一个四分位数第25个百分位数;第三个百分位数 :第75个百分位数
      • 中间四分位区间
      • 识别孤立点: 数据挖掘(3)特征化,数据挖掘,人工智能数据挖掘(3)特征化,数据挖掘,人工智能数据挖掘(3)特征化,数据挖掘,人工智能

 

到了这里,关于数据挖掘(3)特征化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【SCI征稿】3个月左右录用!计算机信息技术等领域均可,如机器学习、遥感技术、人工智能、物联网、人工神经网络、数据挖掘、图像处理

    计算机技术类SCIEEI 【期刊简介】IF:1.0-2.0,JCR4区,中科院4区 【检索情况】SCIEEI 双检,正刊 【参考周期】期刊部系统内提交,录用周期3个月左右,走完期刊部流程上线 【征稿领域】 计算机信息技术在土地变化检测中的应用 包括但不限于以下主题: ● 利用基于机器学习的

    2024年02月10日
    浏览(49)
  • 数据挖掘(3)特征化

    从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。 DM的分类: 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣

    2024年02月07日
    浏览(30)
  • 【python】数据挖掘分析清洗——特征选择(特征筛选)方法汇总

    本文链接:https://blog.csdn.net/weixin_47058355/article/details/130400400?spm=1001.2014.3001.5501 数据挖掘系列: 缺失值处理方法汇总 离散化方法汇总 离群点(异常值)处理方法汇总 标准化(数据归一化)处理方法汇总 特征选择(特征筛选)方法汇总 特征选择筛选(降维)方法汇总 分类预测方法汇

    2024年02月15日
    浏览(44)
  • 为何开展数据清洗、特征工程和数据可视化、数据挖掘与建模?

    1.2为何开展数据清洗、特征工程和数据可视化、数据挖掘与建模 视频为 《Python数据科学应用从入门到精通》张甜 杨维忠 清华大学出版社一书的随书赠送视频讲解1.2节内容 。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。内容涵盖数据科学应用的全

    2024年02月04日
    浏览(44)
  • 数据挖掘实验-主成分分析与类特征化

    数据集代码 https://www.aliyundrive.com/s/Jtcuion5iNC 1.实验目的 了解主成分分析的目的,内容以及流程。 掌握主成分分析,能够进行编程实现。 2.实验原理 主成分分析的目的 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标

    2024年02月07日
    浏览(33)
  • 【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)

    【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等) note:项目链接以及码源见文末 了解赛题 赛题概况 数据概况 预测指标 分析赛题 数据读取pandas 分类指标评价计算示例 回归指标评价计算示例 EDA探索 载入各种数据科学以

    2023年04月13日
    浏览(35)
  • 人工智能学习5(特征抽取)

    编译环境:PyCharm 特征选择和特征抽取都减少了数据的维度(降维),但是特征选择是得到原有特征的子集,特征抽取是将原有特征结果函数映射转化为新的特征。 特征抽取分为无监督特征抽取和有监督特征抽取。 无监督 : 没有标签 PCA降维 ( 主成分分析 )基本思想:构造一系

    2024年02月03日
    浏览(28)
  • 基于Python的网络爬虫及数据处理---智联招聘人才招聘特征分析与挖掘的算法实现

    收藏和点赞,您的关注是我创作的动力   随着科学技术的发展,人类进入了互联网时代,不仅数据量庞大,而且数据种类繁多,Python简单易学, 语法清晰,在数据操作方面有着一定优势,成为了数据采集和可视化领域的热门语言。本论文主要是使用Python来作为开发语言,并

    2024年02月03日
    浏览(43)
  • 【人工智能概论】 XGBoost应用——特征筛选

    换一个评价指标,特征排序结果就会不一样,甚至同样的数据同样的方法多次执行得到的结果也不是完全一样,特征筛选这件事见仁见智,要理性看待,但确实可以提供一种交叉验证的角度。 使用梯度提升算法的好处是在提升树被创建后,可以相对直接地得到每个特征的重要

    2024年01月23日
    浏览(44)
  • 面向人工智能的自动化安全检测与漏洞挖掘

    作者:禅与计算机程序设计艺术 《面向人工智能的自动化安全检测与漏洞挖掘》 1.1. 背景介绍 随着人工智能技术的快速发展,各种网络安全威胁也随之而来。为了保障国家的网络安全,人工智能安全检测与漏洞挖掘技术应运而生。人工智能安全检测与漏洞挖掘技术,可以通

    2024年02月14日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包