人工智能算法-SVM, KNN-Toy模板网

这篇具有很好参考价值的文章主要介绍了人工智能算法-SVM, KNN。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

SVM, KNN区别

一、KNN算法概述

　　算法的描述：

二、关于K的取值

　　K的取法：

三、关于距离的选取

　　Euclidean Distance 定义：

四、总结

SVM, KNN区别

https://www.cnblogs.com/liuxiaochong/p/14269313.html

SVM：先在训练集上训练一个模型，然后用这个模型直接对测试集进行分类。

KNN：没有训练过程，只是将训练数据与训练数据进行距离度量来实现分类。

SVM：训练完直接得到超平面函数，根据超平面函数直接判定预测点的label，预测效率很高

KNN：预测过程需要挨个计算每个训练样本和测试样本的距离，当训练集和测试集很大时，预测效率低。

SVM：SVM是要去找一个函数把达到样本可分。

KNN：KNN对每个样本都要考虑。

SVM：SVM处理高纬度数据比较优秀

KNN：KNN不能处理样本维度太高的东西

选出最好的决策边界
决策边界要大的，宽的道路行动更快

支持寻找向量
支持向量要小的，考虑自己最近的雷才最安全

距离计算（点到平面的距离）

D=|Ax0+By0+Cz0+D|/√ (A²+B²+C²)

目标函数
目的：找到一条线，是的离该线最近的点能够最远
目标函数可以体现svm的基本定义
放缩变换和优化目标
核函数
升维，二维变成三维的，能够用很好的平面分开

升维效果展示

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能

高斯核函数
高斯核函数是一种局部性较强的函数，改函数是应用最广的一个，无论在大样本或者在小样本都有比较好的性能，且相对于多项式核函数来说参数更少。当数据点距离中心点变远时，取值会变小。高斯核函数对数据中存在的噪声有着较好的抗干扰能力，由于其很强的局部性，其参数决定了函数作用范围，随着参数σ的增大而减弱。人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能

线性支持向量机 (Linear-SVM) 被用于线性可分的数据集的二分类问题，当数据集不是线性可分的时候，需要利用到核函数将数据集映射到高维空间。这样数据在高维空间中就线性可分。

高斯核函数（Gaussian kernel），也称径向基 (RBF) 函数，是常用的一种核函数。它可以将有限维数据映射到高维空间，我们来看一下高斯核函数的定义：

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能

上述公式涉及到两个向量的欧式距离（2范数）计算，而且，高斯核函数是两个向量欧式距离的单调函数。 σ 是带宽，控制径向作用范围，换句话说， σ控制高斯核函数的局部作用范围。当 x 和x′ 的欧式距离处于某一个区间范围内的时候，假设固定 x′， k(x,x′)随x的变化而变化的相当显著。

一维情况
令，随x的变化情况如下图所示：

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能
我们看到，随着与的距离的距离的增大，其高斯核函数值在单调递减。并且，越大，那么高斯核函数的局部影响范围就会越大。

二维情况

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能
二维可以更加明显的看出高斯核函数局部作用的范围随带通的变化情况。带通越大，高斯核函数的局部影响的范围就越大。在超出这个范围之后，核函数的值几乎不变。

高斯核将数据映射到高维甚至无穷维的原理

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能

一、KNN算法概述

　　邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based learning），属于懒惰学习（lazy learning）即KNN没有显式的学习过程，也就是说没有训练阶段，数据集事先已有了分类和特征值，待收到新样本后直接进行处理。与急切学习（eager learning）相对应。

　　KNN是通过测量不同特征值之间的距离进行分类。

　　思路是：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也划分为这个类别。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

　　提到KNN，网上最常见的就是下面这个图，可以帮助大家理解。

　　我们要确定绿点属于哪个颜色（红色或者蓝色），要做的就是选出距离目标点距离最近的k个点，看这k个点的大多数颜色是什么颜色。当k取3的时候，我们可以看出距离最近的三个，分别是红色、红色、蓝色，因此得到目标点为红色。

人工智能算法-SVM, KNN,2021 AI python,支持向量机,机器学习,人工智能