【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率)

这篇具有很好参考价值的文章主要介绍了【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率)

目录

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率)

一、 K-NN 简介

二、K-NN 分类

三、K-NN 分类实例

1、1-NN 分类 : 此时 A 类别有 1 个 , B 类别有 0 个 , 红色点被分为 A 类别 ;

 2、3-NN 分类 : 此时 A 类别有  1 个 ,  B 类别有 2 个 , 红色点被分为 B 类别 ;

 3、9-NN 分类 : 此时 A 类别有 5 个 , B 类别有 2 个 , 红色点被分为 A 类别 ;​编辑

4、15-NN 分类 : 此时 A 类别有 5 个 ,  B 类别有 9 个 , 红色点被分为 B 类别 ;​编辑

6、 K-NN 分类 准确度 : 数据量越大 , 准确度越高 ; K-NN 的思想是与周围的大多数样本保持一致 ;

四、K-NN 分类 准确性评估方法

1、保持法 :

2、k-交叉确认法

五、 分类 判定 二维表

六、K-NN 分类结果评价指标

1、准确率

2、 召回率

3、准确率与召回率关联

4、准确率 与 召回率 综合考虑


一、 K-NN 简介

① 全称 : K-NN 全称是 K-Nearest Neighbors , 即 K 最近邻 算法 ;

② 定义 : 给定查询点 p  , 找出离 p  最近的 K 个点 , 找出所有的 qk​ 点 , qk​ 点的要求是 点到 p  的距离 小于其第 k 个邻居的距离 ;

③ 理解方式 : 以  p 点为圆心画圆 , 数一下圆内 , 和圆的边上的点是由有 K 个 , 如果个数不足 K 个 , 扩大半径 , 直到圆边上和园内的点的个数大于等于 K 为止 ;

④ 图示 : 红色的点是 p 点 , 绿色的点是 p 点的 9 个最近的邻居 , 圆上的绿点是第 9 个最近的邻居 ;
【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

二、K-NN 分类

① 已知条件 : 假设给定查询点 p , 已经直到其 K 个最近邻居 ;

② 分类内容 : K-NN 的目的是为了给查询点 p 进行分类 ;

③ 数据集样本抽象成点 : 将训练集的数据样本 , 当做 n 维空间中的的点 ;

④ 预测分类 : 给定一个未知样本 p , 要给该位置样本分类 , 首先以该未知样本作为查询点 , 以 p 点为中心 , 找到该样本的点在 n 维空间中的 K 个近邻 , 将这 K 个近邻按照某个属性的值进行分组 , 该未知样本 p 被分到样本最多的那个组 ;

三、K-NN 分类实例

为下面的红色点进行分类 : 有两种分类 , 绿色点的分类是 A , 和 紫色点的分类是 B , 为红点进行分类 ;
【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

1、1-NN 分类 : 此时 A 类别有 1 个 , B 类别有 0 个 , 红色点被分为 A 类别 ;

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

 2、3-NN 分类 : 此时 A 类别有  1 个B 类别有 2 个 , 红色点被分为 B 类别 ;

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

 3、9-NN 分类 : 此时 A 类别有 5 个 , B 类别有 2 个 , 红色点被分为 A 类别 ;
【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率
4、15-NN 分类 : 此时 A 类别有 5 个 B 类别有 9 个 , 红色点被分为 B 类别 ;
【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率
6、 K-NN 分类 准确度 : 数据量越大 , 准确度越高 ; K-NN 的思想是与周围的大多数样本保持一致 ;

 【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

四、K-NN 分类 准确性评估方法

K-NN 分类准确性评估方法 :

  1. 保持法
  2. k-交叉确认法

这两种方法是常用的 K-NN 评估分类准确率的方法

1、保持法 :

① 训练集测试集划分 : 将数据集样本随机分成两个独立的数据集 , 分别是用于训练学习的训练集 , 和用于验证测试的测试集 ;

② 训练集测试集 样本比例 : 数据集划分比例 , 通常是 , 训练集 2  / 3 ​ , 测试集 1/ 3​ ;

③ 随机划分 : 划分一定要保证随机性 , 划分时不能有任何偏好 ;

2 . 随机选样法 : 执行 K 次保持法 , 得到 K 个准确率 , 总体的准确率取这 K 次准确率的平均值 ;

3 . 随机选样法本质 : 保持法的另一种形式 , 相当于使用多次保持法 ;
 

2、k-交叉确认法

1 . k-交叉确认法 : 首先要划分数据集 , 然后进行 k 次训练测试 , 最后计算出准确率 ;

2 . 划分数据集 : 将数据集样本划分成 k 个独立的子集 , 分别是  {S1​,S2​,⋯,Sk​} , 每个子集的样本个数尽量相同 ;

3 . 训练测试 :

① 训练测试次数 : 训练 k 次 , 测试 k 次 , 每次训练都要对应一次测试 ;

② 训练测试过程 : 第 i 次训练 , 使用 Si​ 作为测试集 , 其余 (k−1) 个子集作为训练集 ;

4 . 训练测试 示例 : 训练 k 次 ;

第 1 次训练 , 使用  S1​ 作为测试集 , 其余 (k−1) 个子集作为训练集 ;
第  2 次训练 , 使用  S2​ 作为测试集 , 其余 (k−1) 个子集作为训练集 ;
 ⋮
第 k 次训练 , 使用  Sk​ 作为测试集 , 其余  (k−1) 个子集作为训练集 ;

5 . 准确率结果 :

① 单次训练测试结果 : k 次测试训练 , 每次使用  Si​ 作为测试集 , 测试的子集中有分类正确的 , 有分类错误的 ;

② 总体准确率 : k 次测试后 , 相当于将整个数据集的子集 {S1​,S2​,⋯,Sk​} 都当做测试集测试了一遍 , 将整体的数据集的样本分类正确的样本个数 Y , 除以整体的样本个数 T , 即可得到 k-交叉确认 准确率结果 Y/ T ​ ;
 

五、 分类 判定 二维表

1 . 分类 判定二维表 : 这里引入二维表 , 这个二维表表示 人 和 机器 , 对样本的判定情况 ;

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

 

2 . 样本分类正确性分析 :

① 样本分类的三种认知 : 样本实际的分类 , 人认为的分类 , 机器认为的分类 ;

② 样本的实际分类 : 样本的实际分类是 A ;

③ 人的判断 : 人认为该样本分类是  A , 说明人判定正确 , 人如果认为该样本分类为 B , 说明人判断错误 ;

④ 机器的判断 : 机器认为该样本分类是A , 说明机器判定正确 ; 机器如果认为该样本分类为 B , 说明机器判断错误 ;

3 . 表内数据含义 : 表格中的 a , b , c , d  值表示样本的个数 ; :

①  a 含义 : 表示 人判断正确 , 机器判断正确 的样本个数 ; 数据集中人和机器同时分类正确的样本个数 ;

②  b 含义 : 表示 人判断错误 , 机器判断正确 的样本个数 ; 数据集中人分类错误 , 机器分类正确的样本个数 ;

③  c 含义 : 表示 人判断正确 , 机器判断错误 的样本个数 ; 数据集中人分类正确 , 机器分类错误的样本个数 ;

④  d 含义 : 表示 人判断错误 , 机器判断错误 的样本个数 ; 数据集中人和机器同时分类错误的样本个数 ;
 

六、K-NN 分类结果评价指标

K-NN 分类结果评价指标 :

① 准确率 

② 召回率

1、准确率

1 ) 准确率计算公式 :

P = a /(a + b )

(a+b) 是 机器 分类正确 的样本的总数 ;

a  是人和机器都认为正确的样本个数;

2)准确率理解 : 机器分类正确的样本中 , 哪些是真正正确的样本 ; ( a + b ) 是机器认为正确的样本 , 其中只有 a 个样本是真正正确的 ;


2、 召回率

1 )召回率计算公式 :

R = a/( a + c )

(a+c) 是 人认为 分类正确 的样本的总数 ;

 a 是人和机器都认为正确的样本个数;

2 ) 召回率理解 : 人认为分类正确的样本中 , 哪些是机器判定正确的 ; (a+c) 是人认为正确的样本个数 , 机器认为正确的是 a 个样本 ;
 

3、准确率与召回率关联

 

准确率 与 召回率 关系 : 这两个指标互相矛盾 ;

准确率 与 召回率 是互相影响的 , 准确率很高时 , 召回率很低 ;

准确率 100% 时 , 召回率很低 ; 召回率 100% 时 , 准确率很低 ;

4、准确率 与 召回率 综合考虑

 

1 ) 准确率 与 召回率 综合考虑 :

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

将准确率 与 召回率放在 上述公式中计算 ,  P 是准确率 ,  R 是召回率 ;

 α 是一个系数 , 通常  α 取值 0.5 ;
 

 

2 ) α 取值 0.5 时公式为 : 此时的度量指标叫做  F1​ 值 , 这个值经常作为 K-NN分类结果的度量指标 , 即考虑了准确率 , 又考虑了召回率 ;

【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率),研究生考试,数据挖掘,人工智能,K-NN,准确率,召回率

 

参考文章:

【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )文章来源地址https://www.toymoban.com/news/detail-530982.html

到了这里,关于【海量数据挖掘/数据分析】 之 K-NN 分类(K-NN、K-NN实例、准确率评估方法、准确率、召回率)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【海量数据挖掘/数据分析】之 决策树模型(决策树模型、决策树构成、决策树常用算法、决策树性能要求、信息增益、信息增益计算公式、决策树信息增益计算实例)

    目录 【海量数据挖掘/数据分析】之 决策树模型(决策树模型、决策树构成、决策树常用算法、决策树性能要求、信息增益、信息增益计算公式、决策树信息增益计算实例) 一、决策树模型 1、常用算法 2、属性划分策略 3、其他算法 三、决策树算法性能要求 四、 决策树模型

    2024年02月13日
    浏览(56)
  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(52)
  • 数据挖掘与数据分析

    目录 数据挖掘与数据分析 一.数据的本质 二.什么是数据挖掘和数据分析 三.数据挖掘和数据分析有什么区别 案例及应用 1. 基于分类模型的案例 2. 基于预测模型的案例 3. 基于关联分析的案例 4. 基于聚类分析的案例 5. 基于异常值分析的案例 6. 基于协同过滤的案例 7. 基于

    2024年04月28日
    浏览(47)
  • 数据分析、数据挖掘常用的数据清洗方法

    数据的完整性—例如:人的属性中缺少性别 数据的唯一性—例如:不同来源的数据出现重复 数据的权威性—例如:同一个指标出现多个来源的数据且数值不同 数据的合法性—例如:获取的数据与常识不符,年龄大于200岁 数据的一致性—例如:不同来源的不同指标,实际内涵

    2024年02月08日
    浏览(55)
  • 数据挖掘-实战记录(一)糖尿病python数据挖掘及其分析

    一、准备数据 1.查看数据 二、数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 3.研究各特征互相的关系 三、数据预处理 1.去掉唯一属性 2.处理缺失值 a)标记缺失值 b)删除缺失值行数  c

    2024年02月11日
    浏览(49)
  • 数据分析技能点-数据挖掘及入门

    在数字化的世界里,数据像是一种新的货币。它不仅推动了科技创新,还在塑造着我们的生活、工作和思维方式。但数据本身并不是目的,真正的价值在于如何从海量的数据中提炼有用的信息和知识。这正是数据挖掘发挥作用的地方。 数据挖掘是从大量的、不完整的、噪声的

    2024年02月07日
    浏览(48)
  • Python数据分析与数据挖掘:解析数据的力量

    随着大数据时代的到来,数据分析和数据挖掘已经成为许多行业中不可或缺的一部分。在这个信息爆炸的时代,如何从大量的数据中提取有价值的信息,成为了企业和个人追求的目标。而Python作为一种强大的编程语言,提供了丰富的库和工具,使得数据分析和数据挖掘变得更

    2024年02月11日
    浏览(58)
  • [数据挖掘] 数据分析的八种方法

    不 同类型的数据分析包括描述性、诊断性、探索性、推理性、预测性、因果性、机械性和规范性。以下是您需要了解的有关每个的信息。本文对于前人归纳的8种进行叙述。

    2024年02月13日
    浏览(54)
  • 数据挖掘(6)聚类分析

    无指导的,数据集中类别未知 类的特征: 类不是事先给定的,而是根据数据的 相似性、距离 划分的 聚类的数目和结构都没有事先假定。 挖掘有价值的客户: 找到客户的黄金客户 ATM的安装位置 原则: 组内数据有较高相似度、不同组数据不相似 相似性的度量(统计学角度): Q型

    2024年02月07日
    浏览(51)
  • 【数据挖掘与人工智能可视化分析】可视化分析:如何通过可视化技术进行数据挖掘和发现

    作者:禅与计算机程序设计艺术 数据挖掘(Data Mining)和人工智能(Artificial Intelligence,AI)已经成为当今社会热点话题。这两者之间的结合也带来了很多挑战。作为数据科学家、机器学习工程师、深度学习研究员等,掌握了数据的获取、清洗、处理、建模、应用这些技术的前提下,

    2024年02月07日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包