判别分析(1)——距离判别法

这篇具有很好参考价值的文章主要介绍了判别分析(1)——距离判别法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

判别分析是多元统计分析的内容,其作用在分类确定的条件下,根据某一研究对象的各种特征的值来判断其归属于哪一类(即总体)。实际上,这一类问题就是根据已有的样本数据与对应的类别,判断未知类别的数据属于哪一类。像逻辑回归、支持向量机等从某种意义上来说也属于是判别分析的一种,只不过这些算法需要根据样本对模型进行训练,从而能够利用未知数据的各个指标判断其属于哪一类;而统计学中的判别分析,并没有利用数据进行训练,而是按照一定的判别准则、建立判别函数来判断新的数据属于哪一类。

判别分析有许多的方法。本文讲述的是判别分析比较简单的一种方法:距离判别法。它属于一种线性判别方法。

(1)基本思想

距离判别法,顾名思义就是根据距离来判别数据归属于哪一类的一种方法。关于距离度量的方法,可以看兔兔之前的《相似性度量(距离度量)方法》系列文章。通常计算两个数据之间的距离,我们可以采用用欧式距离、马氏距离等,但马式距离能够消除量纲等因素的影响,所以用马式距离更多一些。

比如,我们已经知道了各个总体的样本G1、G2...Gn,每个总体的数据样本资料阵形式为:

其中数据的列数p表示变量个数(或指标个数),各个总体的p需要相同;n表示每个总体内数据个数,n可以各不相同。所以各个总体的均值可以表示为:

表示第i个总体的均值。先计算待判断的数据到各个总体的中心的距离(即到各个总体均值的距离)。到哪一个总体的距离最小,就判定归属于哪一类。

import numpy as np
class distance_discriminant:
    def __init__(self,x,*data):
        self.data=data
        self.x=x #待判断的数据
        self.mean=np.mean(data,axis=1) #求各个总体的均值
        self.m=len(data) #总体个数
    def distance(self,x,y):
        '''求x,y之间的欧式距离'''
        n=len(x)
        s=0
        for i in range(n):
            s+=(x[i]-y[i])**2
        return np.sqrt(s)
    def main(self):
        d=[] #储存x到各个总体的距离
        for i in range(self.m):
            d.append(self.distance(self.x,self.mean[i]))
        r=d.index(min(d)) #找距离最短的那一个总体
        return r
if __name__=='__main__':
    data1=[[1,2],[2,2],[2,3]] #总体1
    data2=[[7,8],[8,9],[6,7]] #总体2
    x=[3,5]
    d=distance_discriminant(x,data1,data2)
    result=d.main()
    print(result)

以上是进行距离判别的算法实现。

而在多元统计中,对于两个总体的判别问题,记X到G1,G2的距离分别为,。那么判别规则就是:

根据这个判别规则,我们可以构造判别函数W(X)=。如果W(X)小于零,就属于G1类,否则就是G2类。

以平方马式距离为例,推导过程如下:

判别分析(1)——距离判别法

最终的推导结果就是,即最终所得的判别函数。由于它是X的线性函数,所以也叫做线性判别函数,其中α称为判别系数。之后就可以根据判别函数的正负来判断X属于哪一总体了。

(2)多个总体的距离判别。

多个总体G1、G2...Gn的情况,判别方法就是计算新样本到各个总体的距离,然后选择距离最近的那个总体。实际上就是前面代码的过程。兔兔在这里还是用马氏距离,把判别函数推导一下:

判别分析(1)——距离判别法

 

最终得到的判别函数为判别分析(1)——距离判别法。判别规则就是选择使得判别函数最小的那个总体,即判别分析(1)——距离判别法

总结:

距离判别作为判别分析的一种方法,其过程比较简单,容易理解,如果仅仅是用算法实现距离判别过程的话也是可以不用推导判别函数的,但是作为统计学的一种方法,也是有必要了解的。本文中使用马氏距离时并未详细介绍运用均值μ和协差阵时的注意事项。在实际问题中这两个参数往往是不知道的,所以需要利用总体样本数据来计算样本均值和协差阵进行无偏估计,兔兔把这个问题放在距离度量系列中详细讲解。文章来源地址https://www.toymoban.com/news/detail-457011.html

到了这里,关于判别分析(1)——距离判别法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化...

    Reaven和Miller(1979)研究了145名非肥胖成年人的葡萄糖耐量和胰岛素血液化学指标之间的关系。他们使用斯坦福线性加速器中心的PRIM9系统将数据可视化为3D,并发现了一个奇特的图案,看起来像是一个有两个翼的大斑点 ( 点击文末“阅读原文”获取完整 代码数据 )。 相关视

    2024年02月07日
    浏览(42)
  • 释放马氏距离的力量:用 Python 探索多元数据分析

             马哈拉诺比斯距离( Mahalanobis Distance)是一种测量两个概率分布之间距离的方法。它是基于样本协方差矩阵的函数,用于评估两个向量之间的相似程度。Mahalanobis Distance考虑了数据集中各个特征之间的协方差,因此比欧氏距离更适合用于涉及多个特征的数据集。

    2024年02月13日
    浏览(45)
  • 线性判别分析(LDA)

    线性判别分析(Linear Discriminant Analysis,简称LDA)是一种常用的多元统计分析方法,通常被用于分类和特征提取。它的目的是在给定一组带有标签的数据的情况下,找到一个线性变换,将数据投影到一个低维空间中,使得不同类别的数据点在该低维空间中能够更加容易地区分开

    2024年02月03日
    浏览(66)
  • 线性判别分析(LDA)详解

    入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。 目录 一、LDA简介 二、数学原理(以二分类为例子) 1、设定 2、每一类的均值和方差 3、目标函数 4、目标函数的求解 5、最终的实践所求 三、多分类LDA 四、

    2023年04月15日
    浏览(36)
  • 线性判别分析法(LDA)

            在主成分分析法(PCA)中,我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 以下简称LDA)做一个总结。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有

    2023年04月08日
    浏览(43)
  • 线性判别分析LDA计算例题详解

    线性判别分析 (Linear Discriminant Analysis, LDA) 的核心思想是:将给定训练集投影到特征空间的一个超平面上,并设法使同类样本投影点尽可能接近,异类样本投影点尽可能远离 由于做题时针对的是解题过程,因此原理相关方面省略,具体可参考👉从协方差的角度详解线性判别分

    2024年02月02日
    浏览(46)
  • 使用python实现LDA线性判别分析

    LDA(Linear Discriminant Analysis)线性判别分析是一种监督学习的线性分类算法,它可以将一个样本映射到一条直线上,从而实现对样本的分类。LDA的目标是找到一个投影轴,使得经过投影后的两类样本之间的距离最大,而同一类样本之间的距离最小。 LDA的过程可以分为以下几步

    2024年02月07日
    浏览(50)
  • 机器学习之线性判别分析(Linear Discriminant Analysis)

    线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的监督学习算法,也称\\\"Fisher 判别分析\\\"。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用。 LDA的核心思想是给定训练样本集,设法将样例投影到一条直线上。使得同类样例的

    2024年02月15日
    浏览(38)
  • R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析

    在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力。以地理加权回归为基础的一系列方法:经典地理加权回归,半参数地理加权回归、多尺度地理加权回

    2024年02月14日
    浏览(47)
  • 数学建模-最优包衣厚度终点判别法(主成分分析)

    💞💞 前言 hello hello~ ,这里是viperrrrrrr~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页:viperrrrrrr的博客 💥 欢迎学习数学建模算法、大数据、前端等知识,让我们一起向目标进发!        包衣是将片剂的外表面均匀地包裹上一层衣膜的过程,旨在控制药

    2024年04月17日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包