【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

这篇具有很好参考价值的文章主要介绍了【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一篇介绍了PCA算法的快速理解和应用,本章讲一下KPCA。

KPCA方法与PCA方法一样,是有着扎实的理论基础的,相关理论在论文上以及网络上可以找到大量的材料,所以这篇文章还是聚焦在方法的快速理解以及应用上,此外还会对同学们可能比较关注的参数设置方式进行说明,从而达到快速上手应用的目的。

一、KPCA的基本概念

核主成分分析(Kernel Principal Component Analysis, KPCA)方法是PCA方法的改进,从名字上也可以很容易看出,不同之处就在于“核”。使用核函数的目的:用以构造复杂的非线性分类器。

核方法(Kernel Methods)是一种在机器学习领域广泛使用的非参数统计学习方法。它可以用于分类、回归、聚类等任务,并被广泛应用于计算机视觉、自然语言处理、生物信息学等领域。比如“核”在SVM方法中也是核心概念之一。

核方法的核心思想是通过映射将输入空间中的数据点转换到一个特征空间中,从而使得在特征空间中的数据点能够更容易地被处理和分析。而这种映射通常是通过核函数(Kernel Function)来实现的。

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

低纬到高纬转换示意图,来源:https://entokey.com/artificial-intelligence-in-keratoconus/

需要注意的是,核函数本身并不会显式地定义高维特征空间,而是通过核技巧来实现数据从低维空间到高维特征空间的映射。这种方法可以大大降低计算复杂度,同时可以处理非线性问题,因为它可以将原始数据映射到一个非线性特征空间中,从而使得在特征空间中的数据点更容易被线性分类器或回归器处理。

下边我来举两个例子(与之前PCA的文章一致),说明一下KPCA常见的应用场合和使用方法,以及与KPCA方法的一些不同之处。

二、为什么要数据降维

数据降维是指将高维度的数据映射到低维度的空间中,同时保留数据中的重要信息。这种降维的操作可以帮助我们更好地理解和处理数据,并且可以降低计算的复杂度,提高机器学习算法的效率和准确率。

举个例子,假设我们有一个人口统计数据集,其中包含了10000个人的各种信息,如年龄、性别、职业、收入等。这些信息可以表示为10000行x10列的矩阵,即每个人的信息用一个10维向量表示。然而,在进行机器学习分析时,这些维度可能是冗余的,而且会带来很高的计算成本。因此,我们可以考虑对这些数据进行降维操作,将其映射到一个更低维度的空间中,比如3维或2维。在这个新的低维空间中,我们仍然可以保留数据中的重要信息,比如不同职业之间的差异、年龄与收入之间的相关性等,但是计算复杂度会大大降低,更适合于机器学习算法的处理。

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

来源:https://blog.csdn.net/danwenxuan/article/details/76647940,演示的是3维降到1维,上述人口的例子是从10维往下降

数据降维有很多用处,以下是其中一些常见的用途:

1.数据可视化:在高维数据中,人类的视觉系统难以直观地理解数据的特征和关系。通过将数据降维到二维或三维空间,我们可以更容易地对数据进行可视化和探索。
2.去除冗余特征:在一些应用中,数据集可能存在大量冗余特征,这些特征对于建模没有帮助,甚至会影响模型性能。通过数据降维,我们可以去除冗余特征,提高建模效率和性能。
3.加速算法:在一些算法中,如聚类和分类,高维数据会导致计算复杂度的急剧增加。通过数据降维,我们可以将高维数据降到低维,从而加速算法的运行。
4.降低存储和计算成本:随着数据集的不断增大,存储和计算成本也会急剧增加。通过数据降维,我们可以将数据的维度降到更低,从而减少存储和计算成本。

三、为什么用KPCA

KPCA是PCA的一种扩展形式,它可以有效地应对非线性数据,并且具有以下几个优点:

1.更好的数据可分性

KPCA在将数据映射到高维空间后,能够更好地区分不同类别的数据,提高了数据的可分性。举例来说,如果数据集是一个螺旋形状,那么使用 PCA 很难将这个数据集分离成两个类别,因为 PCA 只能处理线性数据结构。但是,如果使用 KPCA,可以将数据映射到高维空间中,使得数据在新的空间中变得线性可分,从而更容易进行分类。

2.善于处理非线性数据

与PCA只能处理线性数据不同,KPCA可以处理非线性数据。KPCA使用核函数,将原始数据映射到一个高维的特征空间上,该空间具有更强的表达能力,能够处理非线性关系。在这个高维特征空间中,我们可以使用PCA来提取主成分,再将它们映射回原始空间。这样就可以在原始空间中实现非线性变换,从而更好地处理非线性数据。对于许多实际问题有很好的应用前景,例如图像处理和模式识别。

3.更加灵活的使用方式

KPCA的核函数还可以通过调整参数来进一步调整模型的复杂度和鲁棒性。因此,相对于PCA,KPCA具有更多的灵活性和可调性,可以更好地适应不同的数据场景和需求。

四、KPCA中的几个重要参数

1.核函数(Kernel Function)

核函数用于将原始数据映射到一个高维空间中,从而能够更好地区分数据。常见的核函数包括线性核(linear)、多项式核(poly)、高斯核(gaussian)等,径向基核(RBF)是高斯核的另一种表达形式,本质上是相同的。不同的核函数可以对数据进行不同类型的变换,从而影响降维效果。

2.核函数参数(Kernel Function Parameter)

核函数通常包含一个或多个参数,例如高斯核就有一个标准差参数。这些参数影响了核函数变换的程度,可以通过交叉验证等方法来确定最佳参数值。

2.1 高斯核函数中的gamma(γ)参数:高斯核函数定义为 【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现,其中,γ是高斯核函数的一个超参数。它控制了数据点在高维空间中的分布情况。当γ越大时,高斯核函数会使得数据点在高维空间中的分布更加集中,因此,降维后的数据将更容易区分。常见的取值范围为 【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

2.2 多项式核函数中的r和d参数:多项式核函数定义为 【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现 ,其中,r是常数项,d是多项式的阶数,这两个参数控制了多项式核函数的形状。

r是平移参数,它的作用是将多项式核函数平移一定的距离,使得更多的数据被映射到高维空间。

d的取值范围为1到10之间的整数。如果d取值过大,会导致过拟合的问题,如果取值过小,则可能会欠拟合数据。

3.降维后的维度(Number of Components)

该参数是需要同学们自己指定的,在实际使用中通常需要结合实际应用场景进行设置。如果不知道该怎样设置,可以结合各个成分的贡献度进行筛选。贡献度越高,表示该主成分对数据的解释能力越强,因此在选择主成分时可以根据其贡献度进行排序,选择贡献度较高的主成分作为保留的特征。

比如上边人口统计的例子中,经kpca融合后得到的特征就会按照贡献度从大到小排序,我们可以取总贡献度之和达到85%或者90%(自定)的前几个特征作为降维后的特征数据,而这个特征数量就是降维后的维度。

下边我们举例说明一下。

五、案例:降维、聚类与分类

举一个PCA中介绍过的例子。

这里介绍一下鸢尾花数据集,鸢尾花在机器学习里是常客之一。数据集由具有150个实例组成,其特征数据包括四个:萼片长、萼片宽、花瓣长、花瓣宽。数据集中一共包括三种鸢尾花,分别叫做Setosa、Versicolor、Virginica,就像下图:

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

也就是说这组数据的维度是150*4,数据是有标签的。(有标签是指每个实例我们都知道它对应的类别)

此时我们进行KPCA降维,可以得到每个主成分解释方差占总方差的百分比,这个数值可以用以表示每个主成分中包含的信息量,从计算结果上来看,第1个主成分和第2个主成分的百分比之和已经超过95%,前三个主成分百分比之和更是超过了99%。此时我们就可以按照贡献率来筛选降维后的维度了,比如设置总贡献度能达到99%以上,那么就把降维维度设置为2即可。

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

我们可以绘制一下数据降到二维和三维时,降维数据的分布情况:

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现
【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现
尽管PCA算法的初衷是降维而非聚类,不过由于KPCA降维后的数据常常会用做机器学习的输入数据,在数据降维的同时查看降维后数据的分布情况,对于模式识别/分类任务的中间状态确定还是十分有益的,再直白些说,这些图片放在论文里丰富一下内容也是极好的。
在这种应用场景下,数据降维的最主要目的其实还是解决数据特征过于庞大的问题,这个例子中特征只有4个,所以还不太明显。很多时候我们面对的是几十上百乃至更多的特征维度,这些特征中包含着大量冗余信息,使得计算任务变得非常繁重,调参的难度和会大大增加。此时加入一步数据降维就是十分有必要的了。

六、MATLAB的KPCA降维快速实现

KPCA算法在MATLAB中还没有官方函数,不过已经有前辈造出了轮子。大家可以在下边链接下载和使用:

MATLAB-Kernel-PCA

对于不熟悉MATLAB编程,或者希望更简洁的方法实现KPCA降维,并同时绘制出相关图片的同学,则可以考虑使用本专栏封装的函数,它可以实现:

1.输入数据的行列方向纠正。是的,MATLAB的pca函数对特征矩阵的输入方向是有要求的,如果搞不清,程序可以帮你自动纠正。

options.autoDir='on';%是否进行自动纠错,'on'为是,否则为否。开启自动纠错后会智能调整数据的行列方向。

2.指定输出的维度。也就是降维之后的维度,当然这个数不能大于输入数据的特征维度。

options.NumDimensions=3;%降维后的数据维度

3.数据归一化。你可以选择在PCA之前,对特征数据进行归一化,这也只需要设置一个参数。

options.AutoScale=false;%输入数据是否进行标准化,false (默认) | true 

4.绘制特征分布图和成分百分比图。在降维维度为2或者3时,可以绘制特征分布图,当然你也可以选择设置不画图,图个清静。

figflag='on';%是否画图,'on'为画图,'off'为不画,只有NumDimensions为2或者3时起作用,3以上无法画图

5.相关超参数设置。

options.gamma=2;%超参数gamma的数值,默认为2,只对gaussian核有效options.r=1;%超参数r的数值,默认为1,只对polynomial核有效options.d=2;%超参数d的数值,默认为2,只对polynomial核有效

设置好这些配置参数后,只需要调用下边这行代码:

[kpcaVal,explained]=khKPCA(data,options,species,figflag);%kpcaVal为降维后的数据矩阵,explained为各成分贡献度

就可以绘制出这样两张图:

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

绘制三维分布图

如果要绘制二维图,把options.NumDimensions设置成2就好了。绘制出来是这样:

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

绘制二维分布图

不过上述是知道标签值species的情况,如果不知道标签值,设置species=[]就行了,此时画出来的分布图是单一颜色的。

上述代码秉承了本专栏一向的易用属性,功能全部集中在khPCA函数里了,这个函数更详细的介绍如下:

[kpcaVal,explained] = khKPCA(data,options,species,figflag);
% 执行KPCA操作,并实现画图
% 依赖函数:KernelPca.m,原始代码见:https://github.com/kitayama1234/MATLAB-Kernel-PCA
% 输入:
% data:拟进行降维的数据,data维度为m*n,其中m为特征值种类数,n为每个特征值数据长度
% options:一些与kpca降维有关的设置,使用结构体方式赋值,比如 options.autoDir = 'on',具体包括:
%              -autoDir:是否进行自动纠错,'on'为是,否则为否。开启自动纠错后会智能调整数据的行列方向。
%              -NumDimensions:降维后的数据维度,默认为2,注意NumDimensions不能大于data原本维度
%              -kernel: kernel类型选择('linear', 'gaussian', or 'polynomial'),默认为linear
%              -gamma:超参数gamma的数值,默认为2
%              -r:超参数r的数值,默认为1
%              -d:超参数d的数值,默认为2
%              -AutoScale:是否进行标准化,True或False,默认为False
% 
% species:分组变量,可以是数组、数值向量、字符数组、字符串数组等,但是需要注意此变量维度需要与Fea的组数一致。该变量可以不赋值,调用时对应位置写为[]即可
%          例如species可以是[1,1,1,2,2,2,3,3,3]这样的数组,代表了Fea前3行数据为第1组,4-6行数据为第2组,7-9行数据为第三组。
%          关于此species变量更多信息,可以查看下述链接中的"Grouping variable":
%          https://ww2.mathworks.cn/help/stats/gscatter.html?s_tid=doc_ta#d124e492252
% 
% figflag:是否画图,'on'为画图,'off'为不画,只有NumDimensions为2或者3时起作用,3以上无法画图
% 输出:
% pcaVal:主成分分数,即经过pca分析计算得到的主元,每一列是一个主元
% explained:每个主成分解释方差占总方差的百分比,以列向量形式返回。

需要上边这个函数文件以及测试代码的同学,可以在下边链接获取:

核主成分分析(KPCA)降维|工具箱

附录

linear核函数 :

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

gaussian核函数 :

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现

polynomial核函数 :

【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现文章来源地址https://www.toymoban.com/news/detail-450884.html

到了这里,关于【数据降维-第2篇】核主成分分析(KPCA)快速理解,及MATLAB实现的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习强基计划8-3:详细推导核化主成分分析KPCA算法(附Python实现)

    机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖,由本人亲自从底层编

    2023年04月09日
    浏览(43)
  • Python PCA(主成分分析法)降维的两种实现

            PCA降维,一般是用于数据分析和机器学习。它的作用是把一个高维的数据在保留最大信息量的前提下降低到一个低维的空间,从而使我们能够提取数据的主要特征分量,从而得到对数据影响最大的主成分,便于我们对数据进行分析等后续操作。         例如,

    2023年04月17日
    浏览(44)
  • PCA(主成分分析)的理解与应用(学习笔记)

    PCA         主成分分析(Principal Component Analysis, PCA)是一种线性降维算法,也是一种常用的数据预处理(Pre-Processing)方法。它的目标是是用方差(Variance)来衡量数据的差异性,并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下,我们希望获得两个

    2024年02月05日
    浏览(49)
  • 主成分分析法(PCA)的理解(附python代码案例)

    最近在文献调研,发现PCA基本都有用到,回忆起了机器学习和数学建模,总之还是要好好学学捏。 定义 :主成分分析(Principal Component Analysis, PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 换一

    2024年02月03日
    浏览(45)
  • 【机器学习】独立成分分析(ICA)及Matlab实现

    独立成分分析(ICA)最初由Aapo Hyvärinen等人于1980年代提出,其起源可以追溯到对神经科学和信号处理领域的研究需求。ICA的提出主要是为了解决混合信号中盲源分离、非高斯性信号处理和自适应性估计等问题,为实际应用提供了一种有效的信号处理方法。随着研究的深入和应

    2024年02月05日
    浏览(42)
  • 主成分分析法(PCA)及MATLAB实现

    目录 1. 主成分分析概念:  2. 主成分分析法步骤: 第一步:对所有特征进行中心化:去均值 第二步:求协方差矩阵C 第三步:求协方差矩阵C的特征值​编辑和相对应的特征向量​编辑 第四步:将原始特征投影到选取的特征向量上,得到降维后的新K维特征  3. 主成分分析法

    2024年02月12日
    浏览(40)
  • 主成分分析法(PCA)解析与MATLAB实践

    PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法,在机器学习中常用于特征降维提取主要特征以减少计算量。PCA主要原理是将高维原数据通过一个转换矩阵,映射到另一组低维坐标系下,从而实现数据降维。举个简

    2023年04月08日
    浏览(44)
  • 【机器学习】主成分分析(PCA)算法及Matlab实现

    【问题引入】 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可

    2024年02月04日
    浏览(53)
  • 机器学习03-数据理解(小白快速理解分析Pima Indians数据集)

    机器学习数据理解是指对数据集进行详细的分析和探索,以了解数据的结构、特征、分布和质量。数据理解是进行机器学习项目的重要第一步,它有助于我们对数据的基本属性有全面的了解,并为后续的数据预处理、特征工程和模型选择提供指导。 数据理解的主要目标包括但

    2024年02月14日
    浏览(37)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包