数据挖掘期末复习-作业(简答)

这篇具有很好参考价值的文章主要介绍了数据挖掘期末复习-作业(简答)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作业

1、数据挖掘的定义?

数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。

2、数据挖掘主要有哪些技术方向?

答:数据挖掘的技术可分为:统计方法、机器学习方法、神经网络方法、数据库方法。

3、简述数据挖掘的过程?

1数据采集 (2)特征提取和数据清洗 (3)分析处理和算法

4、数据预处理的主要任务?

(1)数据清洗:填补缺失值 | 平滑噪音数据 | 识别并移除异常值和噪音数据 | 解决不一致性 | 解决数据整合后带来的冗余;

(2) 数据整合:集成多个数据库或多个文件;

(3) 数据转换:正则化 | 聚合化;

(3)数据缩成:提取有特征化的数据,减少数据量,并能够产生相同或相似的分析结果;

(4) 数据离散:对某些数值型数据有时需要

5、简述高维数据的可视化方法?

高维数据可视化:箱线图和平行坐标图

6、PCA(主成分分析)和LDA(线性判别分析)的异同点?
相同点:两者均可以对数据进行降维;都属于特征提取;两者在降维时均使用了矩阵特征分解的思想;两者都假设数据符合高斯分布

不同点:
(1)LDA是有监督的降维方法,PCA是无监督的。

(2)LDA降维最多降到类别数K-1的维数,PCA没有这个限制。

(3)LDA选择分类性能最好的投影方向,PCA选择数据最大分差的方向。

(4)LDA可能会过拟合数据。

7、数据规范化的方法和公式?

(1)极值标准化:

数据挖掘期末复习-作业(简答)

 (2)Z-Score 规范化:

数据挖掘期末复习-作业(简答)

8、特征提取和特征选择的区别?
特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。

9、属性间相关联系分析方法和公式?

(1)皮尔森相关性

数据挖掘期末复习-作业(简答)

(2)卡方检验

数据挖掘期末复习-作业(简答)

10、ID3的优点?缺点?

缺点:

  • 只考虑分类的特征,没有考虑连续特征
  • 对缺失值没有考虑
  • 没有考虑拟合问题
  • 划分过程会由于子集规模过大而造成统计特征不充分而停止

优点:理论清晰,方法简单,学习能力较强

11、C4.5算法基于ID3算法做的改进?
改进1:用信息增益率代替信息增益来选择属性

改进2:能够完成对连续值属性的离散化处理
改进3∶能处理属性值缺失的情况
改进4:在决策树构造完成之后进行剪枝

13、什么是频繁项集?性质?

频繁项集是指支持度大于等于最小支持度(min_sup)的集合。

性质1:频繁项集的子集必为频繁项集

性质2:非频繁项集的超集一定是非频繁的

14、APRIORI算法的核心及思想?

核心:生成所有频繁项集。

思想:逐级搜索,先找出长度最大的频繁项集,接着找出长度为2的频繁项集,以此类推:L1=>C2=>L2=>C3.....

15、APRIORI算法的不足之处?

( 1 )可能产生庞大的候选集。
(2)算法需多次遍历数据集,算法效率低,耗时

16、聚类对算法的基本要求?

高的簇内相似性,低的簇间相似性

17、什么是相似性度量?

相似性度量,即综合评定两个事物之间相近程度的一种度量。

1)对称的二值离散型

简单匹配方法

SMC=(b+c)/(a+b+c+d)

不对称的二值离散属性(Jaccard系数

JC=(b+c)/(a+b+c)

(2)多值离散型

简单匹配法

数据挖掘期末复习-作业(简答) 

18、缺失值处理?

( 1 )人工填写(2)特殊值填充

(3)平均值填充(4)使用最有可能的值填充

19、请描述 K 均值(K-Means)算法的核心思想

(1)随机选择k个对象,每个对象代表一个簇的初始均值或中心

(2)对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇

(3)计算每个簇的新均值

(4)回到步骤2,循环,直到准则函数收敛

20、为什么要数据预处理?列出三种常用的预处理技术?

答:数据预处理的目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性。
预处理技术:数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理:数据是不完整的、有噪声的、不一致的(填充缺失值、去除噪声并识别离散点、纠正数据中的不
致值)
②数据集成(聚合)︰对数据进行聚合,将两个或多个数据源的数据,存放在一个一致的数据存储设备中。
③数据变换:将数据转换成适合于挖掘的形式。(平滑、聚集、数据泛化、规范化、数据离散化)
④数据归约:包含抽样、特征选择。

21、噪声数据的平滑方法?

(1)分箱:
第一步:数据被分为n个等深箱
第二步:使用平均值或者边界平滑
箱越深、宽度越大,平滑效果越好。
(2)聚类:删除离群点
(3)回归:找适合的函数

22、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集?

在机器学习领域,分类称做监督学习,因为给定了类标号信息,即学习算法是监督的,因为它被告知每个训练元组的类隶属关系。

聚类被称做无监督学习,因为没有提供类标号信息。

训练集由数据元组和与它们相关的类标号组成,检验集由检验元组和与它们相关联的类标号组成。

数据挖掘期末复习-作业(简答)文章来源地址https://www.toymoban.com/news/detail-492974.html

到了这里,关于数据挖掘期末复习-作业(简答)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HNU-数据挖掘-作业1

    计科210X 甘晴void 202108010XXX 假设所分析的数据包括属性 age,它在数据元组中的值(以递增序)为13 ,15 ,16 ,16 ,19 ,20 ,20 ,21 ,22 ,22 ,25 ,25 ,25 ,25 ,30 ,33 ,33 ,35 ,35 ,35 ,35 ,36 ,40 ,45 ,46 ,52,70。 a. 该数据的均值是多少?中位数是什么? b. 该数据的众数是什么?讨论数据的模态(即二模、三模

    2024年01月22日
    浏览(41)
  • 人工智能期末复习(简答)

    人工智能(Artificial Intelligence, AI),又称机器智能(MI,Machine Intelligence), 主要研究用人工的方法和技术开发智能机器或智能系统,以模仿、延伸和扩展人的智能、生物智能、自然智能,实现机器的智能行为。 简略概括:用机器模拟或实现人类智能。 注:人工智能定义分为

    2024年02月09日
    浏览(34)
  • 2023广工数据挖掘复习重点精讲

    数据挖掘定义 数据挖掘任务 分类、聚类、回归、关联、离群点检测、演化、序列模式挖掘 分类:通过分析示例数据库中的数据为每个类别做出准确的描述和建立分析模型或挖掘出分类规则,然后用此规则对其他数据库的记录进行分类 聚类:试图找出数据集中的共性和差异,

    2024年02月08日
    浏览(28)
  • 【数据挖掘】国科大苏桂平老师数据库新技术课程作业 —— 第四次作业

    云计算与云数据库背景 云计算(cloud computing)是 IT 技术发展的最新趋势,正受到业界和学术界的广泛关注。云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共享基础架构的方法。它可以自我维护和管理庞大的虚拟计算资源(包括计算

    2024年02月04日
    浏览(40)
  • 机器学习——数据仓库与数据挖掘复习(选择题、判断题)

    1. 以下不是分类问题的是(  B )。 A. 用户流失模型 B. 身高和体重关系 C. 信用评分 D. 营销响应 2. 对于回归分析,下列说法错误的是( D ) A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B. 线性相关系数可以是正的,也可以是负的 C. 回归

    2024年02月06日
    浏览(36)
  • 山东大学软件学院2022-2023数据仓库数据挖掘期末考试(回忆版)

    前言 1、考试时间:2023/2/14 14:30-16:30 (因疫情推迟到开学考的期末考试) 2、考试科目:数据仓库数据挖掘(老师:PanPeng) 3、考试语言:中文 4、考试题型:简答、计算、画图(最好带个尺子,容易画图)。 5、考后感想:题量 比较大 ,需要对题目比较熟练,题目类型和ppt上差

    2024年02月08日
    浏览(29)
  • Python高分大数据分析与挖掘大作业

    1.创建一个Python脚本,命名为test1.py,完成以下功能。 (1)生成两个3×3矩阵,并计算矩阵的乘积。 (2)求矩阵 A= -1 1 0 -4 3 0 1 02 的特征值和特征向量。 (3)设有矩阵 A = 5 2 1 2 01 ,试对其进行奇异分解。 求解过程 2.油气藏的储量密度 Y 与生油门限以下平均地温梯度 X 1、

    2024年02月04日
    浏览(31)
  • 数据仓库与数据挖掘(第三版)陈文伟思维导图1-5章作业

    决策支持系统经历了4个阶段。 1.基本决策支持系统 是在运筹学单模型辅助决策的基础上发展起来的,以模型库系统为核心,以多模型和数据库的组合形成方案辅助决策。 它开创了用计算机技术实现科学决策的时代。 2.智能决策支持系统 把基本决策支持系统和专家系统结合起

    2024年04月17日
    浏览(30)
  • 【数据挖掘大作业】基于决策树的评教指标筛选(weka+数据+报告+操作步骤)

    数据挖掘大作业 下载链接:【数据挖掘大作业】基于决策树的评教指标筛选(weka使用手册+数据+实验报告) 一、考核内容 现有某高校评教数据(pjsj.xls),共计842门课程,属性包括:课程名称、评价人数、总平均分以及10个评价指标Index1-Index10。指标内容详见表1。 表 1 学生评教

    2024年02月09日
    浏览(34)
  • 【数据挖掘算法与应用】——数据挖掘导论

    数据挖掘技术背景 大数据如何改变我们的生活 1.数据爆炸但知识贫乏   人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识

    2023年04月09日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包