k-邻近算法(kNN)

这篇具有很好参考价值的文章主要介绍了k-邻近算法(kNN)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

k-近邻算法概述

k-近邻算法的一般流程

kNN算法伪代码


k-近邻算法概述

优点:精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

适用数据范围:数值型和标称型

k-近邻算法的一般流程

(1)收集数据

(2)准备数据

(3)分析数据

(4)训练算法(不需要)

(5)测试算法

(6)使用算法

from numpy import *
import operator
def createDataSet():
  group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
  labels = ['A', 'A', 'B', 'B']
  return group, labels
group, labels = createDataSet()
group
array([[1. , 1.1],
       [1. , 1. ],
       [0. , 0. ],
       [0. , 0.1]])
labels
['A', 'A', 'B', 'B']
import matplotlib.pyplot as plt
x = group[:, 0]
y = group[:, 1]
plt.scatter(x, y)
plt.xlim(-0.2, 1.2)
plt.ylim(-0.2, 1.2)
for i, pos in enumerate(zip(x, y)):
    plt.text(pos[0]-0.01, pos[1], f'{labels[i]}', ha='right')
plt.show()

k-邻近算法(kNN),# 《 机器学习 》,python,机器学习

kNN算法伪代码

对未知类别属性的数据集中的每个点依次执行以下操作:

(1)计算已知类别数据集中的点与当前点之间的距离

(2)按照距离递增的次序排列

(3)选取与当前点距离最小的k个点

(4)确定前k个点所在类别的出现频率

(5)返回前k个点出现频率最高的类别作为当前点的预测分类

def classify0(inX, dataSet, labels, k):
  dataSetSize = dataSet.shape[0]
  diffMat = tile(inX, (dataSetSize, 1)) - dataSet
  sqDiffMat = diffMat ** 2
  sqDistances = sqDiffMat.sum(axis=1)
  distances = sqDistances**0.5
  sortedDistIndicies = distances.argsort()
  classCount = {}
  for i in range(k):
    voteIlabel = labels[sortedDistIndicies[i]]
    classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
  sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
  return sortedClassCount[0][0]
classify0([0, 0], group, labels, 3)

'B'


这段代码实现了k近邻算法中的分类函数,用于根据输入的数据点inX,在数据集dataSet中找到距离最近的k个邻居,并统计它们的类别标签,最终返回频率最高的类别。

现在让我们逐步分析这段代码:

  1. dataSetSize = dataSet.shape[0]: 获取数据集的行数,即数据点的数量。

  2. diffMat = tile(inX, (dataSetSize, 1)) - dataSet: 将输入数据点inX复制成与数据集相同大小的矩阵,然后计算与数据集中每个点的差值。

  3. sqDiffMat = diffMat ** 2: 对差值矩阵的每个元素进行平方操作。

  4. sqDistances = sqDiffMat.sum(axis=1): 沿着列的方向对平方差值矩阵进行求和,得到每个数据点与输入点的平方距离。

  5. distances = sqDistances**0.5: 对平方距离进行开方,得到真实距离。

  6. sortedDistIndicies = distances.argsort(): 对距离进行排序,返回排序后的索引值。

  7. classCount = {}: 初始化一个空字典,用于存储每个类别的投票数。

  8. for i in range(k):: 遍历前k个最小距离的索引。

  9. voteIlabel = labels[sortedDistIndicies[i]]: 获取对应索引的类别标签。

  10. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1: 统计每个类别的投票数,使用get方法获取字典中的值,如果键不存在则返回默认值0。

  11. sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True): 对字典按照值进行排序,items()方法返回字典的键值对,key=operator.itemgetter(1)表示按照值排序,reverse=True表示降序排列。

  12. return sortedClassCount[0][0]: 返回排序后的字典中频率最高的类别标签,即k个邻居中出现最多的类别。

这个函数的核心思想是通过计算输入点与数据集中每个点的距离,找到距离最近的k个邻居,然后通过投票机制确定输入点的类别。文章来源地址https://www.toymoban.com/news/detail-835677.html

到了这里,关于k-邻近算法(kNN)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python】机器学习-K-近邻(KNN)算法【文末送书】

             目录 一 . K-近邻算法(KNN)概述  二、KNN算法实现 三、 MATLAB实现 四、 实战         K-近邻算法(KNN)是一种基本的分类算法,它通过计算数据点之间的距离来进行分类。在KNN算法中,当我们需要对一个未知数据点进行分类时,它会与训练集中的各个数据点进

    2024年02月08日
    浏览(46)
  • 用K近邻(KNN)机器学习算法进行股票走势预测-Python

    K近邻(KNN,K-Nearest Neighbors)是最简单的机器学习算法之一,可用于回归和分类。KNN是一种“惰性”学习算法,从技术上讲,它不训练模型来进行预测。K近邻的逻辑是,假设有一个观测值,这个观测值被预测属于离它k个最近观测值中所占比例最大的那一个类。KNN方法是直接尝试

    2024年02月04日
    浏览(54)
  • 【OpenCV-Python】——机器学习kNN算法&SVM算法&k均值聚类算法&深度学习图像识别&对象检测

    目录 前言: 1、机器学习 1.1 kNN算法 1.2 SVM算法(支持向量机)  1.3 k均值聚类算

    2024年02月05日
    浏览(49)
  • 机器学习02-再识K邻近算法(自定义数据集训练及测试)

    如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。简单的说就是根据你的“邻居”来推断出你的类别。 用个成语就是物以类聚 思想: 如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一

    2024年02月15日
    浏览(40)
  • 机器学习——KNN算法实例

    目录 1.项目背景 2.流程步骤  3.代码部分 3.1导入可能需要用的包  3.2准备数据:从文本文件中解析数据  3.3分析数据:用Matplotlib创建散点图  3.4准备数据:数据归一化 3.5 测试算法:作为完整程序验证分类器  【关于K值的选择】 3.6使用算法:构建完整可用系统 4.总结    关

    2024年02月11日
    浏览(58)
  • 机器学习——KNN算法

    机器学习笔记 KNN的算法原理,可以简单如下描述: 一个数据集中存在多个已有标签的样本值,这些样本值共有的n个特征构成了一个多维空间N。当有一个需要预测/分类的样本x出现,我们把这个x放到多维空间n中,找到离其距离最近的k个样本,并将这些样本称为最近邻(nea

    2024年02月06日
    浏览(44)
  • 【机器学习】KNN 算法介绍

    KNN 算法,或者称 k-最近邻算法,是 有监督学习 中的 分类算法 。它可以用于分类或回归问题,但它通常用作分类算法。 KNN 的全称是 K Nearest Neighbors,意思是 K 个最近的邻居。该算法用 K 个最近邻来干什么呢?其实,KNN 的原理就是:当预测一个新样本的类别时, 根据它距离

    2023年04月24日
    浏览(84)
  • 【机器学习笔记】7 KNN算法

    欧几里得度量(Euclidean Metric)(也称欧氏距离)是一个通常采用的距离定义,指在𝑚维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 想象你在城市道路里,要从一个十字路口开车到

    2024年02月21日
    浏览(39)
  • 机器学习小结之KNN算法

    ​ KNN (K-Nearest Neighbor)算法是一种最简单,也是一个很实用的机器学习的算法,在《 机器学习实战 》这本书中属于第一个介绍的算法。它属于基于实例的 有监督学习 算法,本身不需要进行训练,不会得到一个概括数据特征的 模型 ,只需要选择合适的参数 K 就可以进行应用。

    2024年02月06日
    浏览(77)
  • 【机器学习实战】K- 近邻算法(KNN算法)

    K-近邻算法 ,又称为  KNN 算法 ,是数据挖掘技术中原理最简单的算法。 KNN  的工作原理:给定一个已知类别标签的数据训练集,输入没有标签的新数据后,在训练数据集中找到与新数据最临近的 K 个实例。如果这 K 个实例的多数属于某个类别,那么新数据就属于这个类别。

    2023年04月20日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包