大数据技术期末复习重点,不挂科看这里~

这篇具有很好参考价值的文章主要介绍了大数据技术期末复习重点,不挂科看这里~。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

本篇文章是根据老师画的重点,作为期末大数据复习资料,持续更新中~

目录

一、大数据概念

1.什么是大数据,大数据的意义是什么?大数据的特征是什么?

2.大数据的技术支撑是什么?

3.大数据的处理方法有哪些?

二、数据采集与预处理

1.Kafka数据采集

2.数据预处理原理

3.数据预处理方法

4.数据清洗有哪些方法?

5.数据集成要考虑的问题有哪些?

6.数据变换主要涉及哪些内容?

三.数据挖掘

1.数据挖掘的概念

2.数据挖掘常用算法

3.分类 

4.聚类

5.关联规则

一、大数据概念

1.什么是大数据,大数据的意义是什么?大数据的特征是什么?

大数据是由云计算技术支撑,对海量数据进行推测预演的技术。

大数据局意义是通过关联找到规则,有数据可说,说数据可靠。

大数据有四大特征:

  • 体量大:数据规模十分庞大,根据新摩尔定律每十八个月翻一倍
  • 价值高:数据的价值密度低但有巨大潜在价值
  • 速度快:随着计算机和网络技术的发展,数据采集,储存,分析,处理的速度越来越快
  • 种类多:数据来源广、维度多、关系杂

2.大数据的技术支撑是什么?

大数据的技术支支撑是云计算。Hadoop的出现为大数据带来了曙光,HDFS为海量数据提供了存储,MapReduce为海量数据提供了并行计算,大数据使得人工智能水平得到很大的提升。

3.大数据的处理方法有哪些?

  • 数据的采集:主要通过数据抓取和导入、传感设备的信息采集获取数据
  • 导入和预处理:导入是将海量数据导入到大型分布式数据库中,数据预处理是指在进行数据挖掘之前,对原始数据进行数据清洗、数据集成、数据变换等操作,以达到挖掘算法进行知识获取所要求的最低规范
  • 统计与分析:可以使用R语言对海量数据进行分析和汇总
  • 数据挖掘:通过对提供的数据进行分析,查找特定类型的模式或趋势

二、数据采集与预处理

1.Kafka数据采集

大数据技术期末复习重点,不挂科看这里~

2.数据预处理原理

通过数据预处理操作,使残缺的数据完整,将错误的数据纠正,把多余的数据去除,挑选出所需的数据进行数据集成。

数据的预处理方法一般有数据清洗、数据集成、数据变换等。

3.数据预处理方法

数据的预处理方法一般有数据清洗、数据集成、数据变换等。

  • 数据清洗是数据预处理的首要方法。通过填充缺失值、光滑噪声数据、识别和删除离群点等方法使残缺的数据完整,将错误的数据纠正,把多余的数据去除,挑选出所需的数据
  • 数据集成是合并多个数据源的数据,存放在同一个数据仓库。
  • 数据变换是将数据变换成统一适合挖掘的形式。

4.数据清洗有哪些方法?

数据清洗的方法有填充缺失值、光滑噪声数据、识别和删除离群点等。

  • 填充缺失值:有以下几个处理方法,忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、用属性均值填充缺失值、用同类样本属性均值填充缺失值、使用最可能的值填充缺失值
  • 光滑噪声数据:数据光滑技术的具体内容包括分箱、回归、聚类

4.1.分箱法

定义:通过观察某一数据周围的值来光滑有序数据的值,按照取值的不同划分可分为按箱平均值平滑、按箱中值平滑、以及按箱边界值平滑

4.2.回归

定义:利用某一拟合函数(如回归函数)来光滑数据

4.3.聚类

通过聚类分析检测出离群点。将类似的值组织成群或簇,落在簇之外的点就是离群点

5.数据集成要考虑的问题有哪些?

数据集成要考虑的问题有四个,分别是模式集成和对象匹配问题、冗余问题、元组重复问题、数据值冲突的检测与处理问题

6.数据变换主要涉及哪些内容?

数据变换主要涉及的内容包括有光滑。聚集、数据泛化、规范化、属性构造

三.数据挖掘

1.数据挖掘的概念

数据挖掘(DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的具有潜在价值的信息的过程。知识发现(KDD)包含数据挖掘(DM)

2.数据挖掘常用算法

数据挖掘常用方法有分类、聚类、关联规则、时间序列预测等

  • 分类:分类是在给定数据基础上构建分类函数或分类模型,目的是将未知类别规类为给定类别种的某一类
  • 聚类:聚类是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组对象的集合,
  • 关联规则:关联规则是信任度与支持度分别满足用户给定阈值的规则
  • 时间序列预测:时间序列是将统计指标的数值按时间顺序排列所形成的数列。时间序列预测是将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。

3.分类 

分类过程为学习和分类。第一步是建立模型,第二部根据模型进行分类。

3.1K最近邻算法

K最近邻算法的思想是:如果一个样本在特征空间的k个最相似样本中的大多数属于某一类别,则该样本属于该类别

大数据技术期末复习重点,不挂科看这里~

3.2决策树

3.3贝叶斯分类 

  • 贝叶斯定理:P(A|B)=P(A) * P(B|A) / P(B)

大数据技术期末复习重点,不挂科看这里~

根据贝叶斯定理

大数据技术期末复习重点,不挂科看这里~ 大数据技术期末复习重点,不挂科看这里~

  •  朴素贝叶斯定理:P(A1A2...An|C)*P(C)=P(A1|C)*P(A2|C)...*P(An|C)*P(C), 朴素贝叶斯分类器是假设所有特征都彼此独立

大数据技术期末复习重点,不挂科看这里~大数据技术期末复习重点,不挂科看这里~

3.4SVM(支持向量机算法)

超平面、超曲面、、、略

4.聚类

4.1聚类与分类的区别

分类:分类模型中存在的数据的是已经分类好的,分类的目的是从训练样本集中提取出分类的规则,用于对未知类别的数据进行归类

聚类:预先不知道目标数据有关类的信息,需要以某种度量为标准,将所有数据划分到各个簇中,因此聚类称为无监督学习

4.2聚类过程

数据准备——>特征选择——>特征提取——>聚类

4.3层次聚类算法

层次聚类算法的思想是对给定待聚类数据集合进行层次划分解,典型算法有BIRCH算法.

BIRCH算法:

大数据技术期末复习重点,不挂科看这里~

大数据技术期末复习重点,不挂科看这里~

4.4划分聚类算法

划分聚类思想是将给定的数据集分裂为k个簇,然后反复迭代到每个簇不再改变即得出聚类结果

4.4.1K-means算法(K均值算法)

大数据技术期末复习重点,不挂科看这里~

4.5基于密度的聚类算法

层次聚类和划分聚类都以距离为基础,而密度聚类算法思想是只要邻近区域的数据点数目超过某个阈值就把它加到与之相近的聚类中

4.5.1DBSCAN算法

名词概念:

邻域(Eps):以给定对象为圆心,半径内的区域为该对象的邻域

核心对象:对象的邻域内至少有MinPts(设定的阈值)个对象,则该对象为核心对象

边界对象:对象的领域小于MinPts个对象,但是在某个核心对象的邻近域中

离群点(噪声):对象的领域小于MinPts个对象,且不在某个核心对象的邻域中

直接密度可达:如果a是核心对象,b在a的邻域内,则a到b是直接密度可达

密度可达:a到b是直接密度可达,b到c是直接密度可达,则a到c是密度可达

密度相连:a到b是密度可达,a到c也是密度可达,则b到c是密度相连的

算法步骤:

1.输入两个参数:邻域半径(Eps),邻域密度阈值(MinPts)

2.找一个未访问的点

3.如果该点是核心点,访问所有从该点密度可达的点,形成一个簇

4.如果该点是边界点,跳出循环,寻找下一个点

详细讲解和例题可以看我另外一篇文章

聚类算法——基于密度的聚类算法DBSCAN_转行卖煎饼的博客-CSDN博客

5.关联规则

5.1 关联规则概念

关联规则挖掘指从数据集中识别出频繁出现的属性值集(频繁项集),然后利用频繁项集创建描述关联关系的规则的过程

5.2关联规则的名词解释

项集:数据库中的数据项构成的非空集合

事务:一个事务包含了一个或多个项集

支持度:包含项集x的事务数量与全部事务数量的百分比

置信度:同时包含数据项x和数据项y的事务数量与事务x(或事务y)出现的次数之比

最小支持度与最小置信度:关联规则必须满足的最低要求,由用户设定

频繁项集:大于等于最小支持度的项集称为频繁项集

最大频繁项集:不被其它频繁项集包含的频繁项集称为最大频繁项集

强关联规则:大于等于最小支持度和最小置信度称为强关联规则(频繁项集的基础上大于等于最小置信度)

5.3Apriori算法

Apriori是基于广度优先的关联规则算法,即从频繁1项集开始,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频繁项集为止。

详细讲解和例题可以看我另外一篇文章

关联规则算法——Apriori算法_转行卖煎饼的博客-CSDN博客

5.4FP-Growth算法

FP-Growth不会产生候选项集,它采用分而治之的基本思想,将数据库中的频繁项集压缩到一棵频繁模式树中,同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树分成一些条件子树,每个条件子树对应一个频繁项,从而获得频繁项集,最后进行关联规则挖掘

详细讲解和例题可以看我另外一篇文章

关联规则算法——FP-Growth算法_转行卖煎饼的博客-CSDN博客

6.时间序列预测

四.人工智能

1.卷积神经网络的三个特点是什么

局部感受区域:神经元只对视野中的某一区域产生影响

权值共享(在提取):同一个卷积层中的所有神经元都共享同一个卷积核

降采样(在压缩):对卷积层提取的特征进行聚合统计文章来源地址https://www.toymoban.com/news/detail-506495.html

到了这里,关于大数据技术期末复习重点,不挂科看这里~的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python期末复习知识点大合集(期末不挂科版)

    本期博客总结了老师给出的考试范围的相关知识点,知识点总结的并不是很完整,更多详细细致的知识点可以去看一下我的Python专栏: Python编程基础 Python每日一学 知识点总结仅供参考,总结不易,期待得到你们的点赞收藏转发三连,谢谢!祝大家期末考试顺利通过!!!

    2024年02月03日
    浏览(56)
  • 【网络协议详解】——知识点复习(期末不挂科版)

    课本: 网络协议分析的方法: 静态的代码分析、动态的流量分析 IOS 的命令行接口(Command-Line Interface,CLI)是配置、监控和维护 Cisco 设备的最主要用户接口。 CLI 有多种模式: 命令模式 访问方法 提示符 退出方法 用途 User EXEC(用户模式) 连接设备 Router 输入命令 logout 或

    2024年02月09日
    浏览(56)
  • 【计算机网络详解】——知识点复习(期末不挂科版)

    配套视频:湖科大教书匠 配套教材:计算机网络(第8版) 谢希仁 根据学习通要求“掌握”的部分总结的, 有亿点点长 ,时间来不及就掌握画 ☆ 的就好啦 交换方式 特点 优点 缺点 电路交换 预先建立通信路径 传输稳定,延迟低 资源浪费,不适用于并发 报文交换 直接传输

    2024年02月10日
    浏览(42)
  • [MySQL]数据库原理5——喵喵期末不挂科

    希望你开心,希望你健康,希望你幸福,希望你点赞! 最后的最后,关注喵,关注喵,关注喵,佬佬会看到更多有趣的博客哦!!! 喵喵喵,你对我真的很重要! 目录 前言 删除表 表数据操作 1.使用INSERT INTO| REPLACE语句 2.用LOAD DATA语句将数据装入数据库表中 3.图片数据

    2024年03月10日
    浏览(63)
  • (我的创作纪念日)[MySQL]数据库原理7——喵喵期末不挂科

    希望你开心,希望你健康,希望你幸福,希望你点赞! 最后的最后,关注喵,关注喵,关注喵,大大会看到更多有趣的博客哦!!! 喵喵喵,你对我真的很重要! 目录 ​编辑 前言 数据约束和参照完整性 背景与要求 PRIMARY KEY约束 理解PRIMARY KEY约束 表的完整性约束 复合主键

    2024年04月15日
    浏览(49)
  • MySQL1——喵喵期末不挂科

    宝宝,你不点个赞吗?不评个论吗?不收个藏吗? 最后的最后,关注我,关注我,关注我,你会看到更多有趣的博客哦!!! 喵喵喵,你对我真的很重要。 目录 前言 MySQL的简介 MySQL的基础知识 安装包!!! 安装问题 注释 启动,启动,启动—— 创建表 查看表 修改表(期

    2024年02月08日
    浏览(49)
  • 云计算与大数据之间的羁绊(期末不挂科版):云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 大数据是需求,云计算是手段。没有大数据,就不需要云计算;没有云计算,就无法处理大数据。 所有的计算能力、存储能力、和各种各样功能的应用都通过网络

    2024年02月04日
    浏览(63)
  • 网络安全知识点梳理(期末不挂科)

    本文一篇帮你梳理清晰,内容覆盖整个大学网络安全知识点 👌🏻   干货满满不看后悔 👍👍👍 📝个人主页→数据挖掘博主ZTLJQ的主页 ​ 个人推荐python学习系列: ☄️爬虫JS逆向系列专栏 - 爬虫逆向教学 ☄️python系列专栏 - 从零开始学python   第一章 漏洞类型 一、操

    2024年02月13日
    浏览(40)
  • [MySQL]数据库原理2,Server,DataBase,Connection,latin1、UTF-8,gb2312,Encoding,Default Collation——喵喵期末不挂科

    希望你开心,希望你健康,希望你幸福,希望你点赞! 最后的最后,关注喵,关注喵,关注喵,佬佬会看到更多有趣的博客哦!!! 喵喵喵,你对我真的很重要! 目录 前言 认识字符集和校对原则 MySQL 5.5支持的字符集和校对原则 常用字符集和校对原则 确定字符集和校对原

    2024年02月04日
    浏览(45)
  • 【期末不挂科-单片机考前速过系列P2】(第二章:搞定寻址方式)经典例题盘点(带图解析)

    前言 大家好吖,欢迎来到 YY 滴单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 欢迎订阅 YY 滴C++专栏!更多干货持续更新!以下是传送门! YY的《C++》专栏 YY的《C++11》专栏 YY的《Linux》专栏 YY的《数据结构》专栏 YY的《C语言基础》专栏 YY的《

    2024年02月01日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包