数据仓库与数据挖掘小结

这篇具有很好参考价值的文章主要介绍了数据仓库与数据挖掘小结。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

更加详细的只找得到pdf版本 

填空10分
判断并改错10分
计算8分
综合20分

客观题

填空10分
判断并改错10分--错的要改

mooc中的--尤其考试题

 

名词解释12分

4个,每个3分

经常碰到的专业术语

简答题40分

5个,每道8分

综合

roc曲线

类似于和计算相关的题目

C1

什么是数据挖掘?概念是什么?

哪些操作属于数据挖掘操作,哪些操作不属于
数据:海量、多源异构

操作:从大量的数据中提取出有趣的(重要、隐含、以前未知、潜在有用)模式或知识。

数据分析与数据挖掘有区别
数据挖掘AKA知识发现KDD

数据挖掘的流程

在数据管理的视角下,数据挖掘的流程是什么?有哪些环节?一定要注意是一个迭代反馈的过程
 

数据集成

不同数据源中描述同一条数据对象《变成一个比较统一的数据信息

数据清理

错误、异常、冗余、缺失

进入数据仓库

按主题存储数据

选择、变换

把数据仓库中的数据变成与数据挖掘任务相关的数据集
选择:选择相关数据、属性特征
变换:格式可能不满足算法要求、数据量纲;特征转换--相乘相除etc…

得到和任务相关的数据集,可供我们使用算法

数据挖掘

设计或选择合适的模型,用于任务相关的数据上,得到模式

知识评估

若不满足,考虑到之前所有步骤--哪个或哪几个步骤不合适

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能


反复试验的过程

数据挖掘的任务

分类回归

利用历史记录预测未来的值--预测问题

聚类

相关性分析与关联分析-关联规则挖掘

异常检测

预测性任务

描述性任务

关联规则挖掘-物品之间共线关系

C2

数据集的主要特征

维度、分辨率、稀疏性

识别数据属性值中的异常的方法

画图【箱线图】、统计的3σ原则

标称【标称属性中的二分属性->对称二分与不对称二分】、序数、数值,如何计算这些数据类型的相似度?如果数据的属性是混合类型的数据类型的相似度怎么计算?【核心

数据对象的相似性度量问题【两个行的相似性】【属性之间的相似性是两个列】

相似性和相异性此涨彼消

标称

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

p为属性个数,m是两个对象属性取值相等的个数,p-m两个对象取值不相等的个数

二分
需要四个指标
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

非对称:
取0的可能性更高:尽管差异性很大但是因为取0概率高导致差异性不准
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

序数

取值转换为数值类型--把级别从低到高排序;
取值按公式转换
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数值

用距离衡量
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

常用距离

闵氏距离

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

曼哈顿距离-出租车距离-沿着街道走走折线--高维
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

上确界距离

文档

余弦相似度
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

混合类型

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

f:每个属性
dij(f):在f属性上的相异度
前面为权重

属性之间的相关性

单相关和复相关

正相关和负相关

线性相关和非线性相关

不相关、完全相关、不完全相关

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

画散点图
相关系数

线性:

协方差

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

皮尔森相关系数

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

等级

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

最大信息系数MIC:用于度量高维数据中属性变量之间强相关性
 

属性和属性间的计算属于相关性分析--方法

C3

数据预处理主要包括哪些步骤?

数据清理、数据集成、数据转换、数据约减
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

简述数据清理的主要任务、常用方法、流程

处理缺失数据、平滑噪声、识别或移除异常(属性值的异常)、解决数据不一致的问题…
 

常用方法
 

缺失值

删除;
插补
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

异常值

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

噪音

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

不一致

实体识别技术

流程
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

流程:

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

右侧是数据清理的过程,首先import data导入数据,集中相关数据,处理缺失值,标准化【max-min这种,目标是统一特征维度的量纲】、规范化【变换后吻合一个分布zscore】,重复性检测、修正错误与丰富,导出

常用离散化方法有哪些?【看下游任务】

无监督

分箱

直方图

聚类(k-means)

有监督--类标签指导下

基于熵的方法

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

不断离散化

如何识别冗余属性?

通过相关性分析发现冗余属性
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数值属性:相关系数、协方差
标称类型:卡方检验
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

常用的约减方法--前三个对数据量压缩,PCA是无监督的降维

回归

聚类

抽样

PCA

数据量的压缩

有参

回归

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

只保留参数wb,想生成数据集的时候直接在x上随机采样生成y值

无参

聚类

对每个簇抽样

抽样

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

有放回、无放回、分层

维度压缩

无监督pca

把原始的属性描述的特征空间映射为正交矩阵空间,尽可能多的保留原始数据信息
消除冗余--维度彼此独立
pca通过做正交矩阵分解,得到主成分,选前k个重要特征作为新的空间中的特征,把所有数据对象由前k个特征的线性组合表示

属性子集选择

Method1:删除冗余属性、删除不重要的…得到子集
Method2:添加最重要的、次重要的…得到子集
 

Vs

属性选择得到的特征有具体含义,PCA没有【黑箱】-可能可以得到非常好的特征提取但是可解释性差


 

olap

数仓的基本架构

简述数仓的数据模型及各模型特点

数据仓库与数据库的区别

关联规则挖掘

方法与评估指标
 

 两阶段

频繁项集的产生--关联规则的产生

频繁项集的实现

用了性质缩小频繁项集的空间

关联规则挖掘的内容

评估指标--常用支持度和置信度,并不一定是一个有意义的关联规则,

提升度

聚类

聚类和分类的区别

kmeans和DBSCAN的原理和流程和优缺点特点,对kmeans的缺点有哪些办法可以解决

k值需要确定

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

设置不同k值求sse,考虑拐点附近的k值

初始聚类中心的选择

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

第一个随机选,下一个选离当前选择的最远的

对噪声点和异常敏感【因为均值敏感】

使用k-medoids用真实数据对象作为中心-复杂度高-由簇中的数据对象替代;用k中位数

球形簇【基于距离】

空簇

选sse贡献最大的点作为簇中心,从簇中选一个对sse贡献最大的点,
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

尺寸:

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

密度:
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能



非凸:
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

解决:
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

k取较大值分为多个小簇再合并

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

纵轴:第k个最近邻距离的变化范围
横轴:数据对象按最近邻距离编码
大部分数据对象的第k个最近邻的变化变化幅度不大,拐点飙升-异常点,当k取大,距离大
由此判断k

聚类的评估指标--有监督【和分类一样】和无监督【规范化的互信息与轮廓系数】

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

标准化的互信息-Y是聚类标签,C是真实标签-I(Y,C)互信息=H(C )-H(Y|C)yc依赖性越高越好

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

分类

roc怎么画

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

tpr是召回率
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

评估指标--精度召回率fscore

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

决策树、贝叶斯、集成

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

贝叶斯:易于实现,结果比较好,鲁棒的
有可能有依赖


集成
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

对于不稳定的分类器才有提升效果

评估框架--bootstrap cosostation??交叉验证的bootstrap

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

二分类问题

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

正事例
 

数据仓库与数据挖掘小结,数据仓库,数据挖掘,人工智能

异常

异常的类型

异常的方法

基于统计、距离、密度、文章来源地址https://www.toymoban.com/news/detail-816106.html

到了这里,关于数据仓库与数据挖掘小结的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

    进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构

    2023年04月09日
    浏览(62)
  • 【SCI征稿】3个月左右录用!计算机信息技术等领域均可,如机器学习、遥感技术、人工智能、物联网、人工神经网络、数据挖掘、图像处理

    计算机技术类SCIEEI 【期刊简介】IF:1.0-2.0,JCR4区,中科院4区 【检索情况】SCIEEI 双检,正刊 【参考周期】期刊部系统内提交,录用周期3个月左右,走完期刊部流程上线 【征稿领域】 计算机信息技术在土地变化检测中的应用 包括但不限于以下主题: ● 利用基于机器学习的

    2024年02月10日
    浏览(67)
  • 数据仓库与数据挖掘

    数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、

    2024年02月06日
    浏览(49)
  • 数据挖掘(7.1)--数据仓库

    目录 引言 一、数据库 1.简介 2.数据库管理系统(DBMS) 二、数据仓库 数据仓库特征 数据仓库作用 数据仓库和DBMS对比 分离数据仓库和数据库 数据仓库的历史可以追溯到20世纪60年代,当时计算机领域的主要工作是创建运行在主文件上的单个应用,这些应用以报表处理和程序为特

    2024年02月08日
    浏览(39)
  • 数据挖掘和数据仓库之间的区别

    数据仓库是一种用于收集和管理来自不同来源的数据以提供有意义的业务见解的技术。它是技术和组件的混合体,允许战略性地使用数据。 数据仓库是企业对大量信息的电子存储,旨在进行查询和分析,而不是事务处理。这是一个将数据转换为信息并将其提供给用户进行分析

    2024年02月04日
    浏览(46)
  • Python实现图书数据挖掘系统(数据仓库)

    目 录 摘 要 I Abstract II 第1章 绪论 1 1.1选题背景及意义 1 1.2国内外研究现状 1 1.3发展趋势 2 第2章 系统需求分析 3 2.1任务描述 3 2.2需求分析 3 2.3 系统目标 4 第3章 系统概要设计 5 3.1 系统用户分析 5 3.2 系统功能分析 6 3.3 系统算法分析 9 第4章 系统详细设计 12 4.1 数据管理 12 4.2

    2024年02月12日
    浏览(42)
  • 机器学习——数据仓库与数据挖掘——期末复习(简答题)

    1 、试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。 查全率: 真实正例被预测为正例的比例 真正例率: 真实正例被预测为正例的比例 查全率与真正例率是相等的。 查准率:预测为正例的实例中真实正例的比例 假正例率: 真实反例被预测为正例的

    2024年02月10日
    浏览(63)
  • 我的数据仓库与数据挖掘期末大作业重置版

    这是之前已经完成的任务,原本是我的数据仓库与数据挖掘课程的作业。里面都是比较入门的东西,没什么难度。之前学这门课的时候,上了一整个学期的课,几乎都在讲解数学原理。作为数学科目挂了四门的理工蠢材,我整个学期都听得云里雾里,到了学期末的时候突然告

    2024年02月04日
    浏览(46)
  • 仓库运行状况如何得知?数据挖掘是关键!

    库存、订单、出入库记录、物流信息、货物状态等数据,是仓库管理的重要组成部分。 仓库数据的重要性 做好仓库数据管理对企业的重要性不言而喻。通过有效地管理数据,企业可以更好地了解市场需求和库存情况,快速响应市场变化,提高库存周转率和客户满意度;此外

    2024年02月10日
    浏览(43)
  • 机器学习——数据仓库与数据挖掘复习(选择题、判断题)

    1. 以下不是分类问题的是(  B )。 A. 用户流失模型 B. 身高和体重关系 C. 信用评分 D. 营销响应 2. 对于回归分析,下列说法错误的是( D ) A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B. 线性相关系数可以是正的,也可以是负的 C. 回归

    2024年02月06日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包