聚类与回归

这篇具有很好参考价值的文章主要介绍了聚类与回归。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

聚类

聚类属于非监督式学习(无监督学习),往往不知道因变量。

通过观察学习,将数据分割成多个簇。

回归

回归属于监督式学习(有监督学习),知道因变量。

通过有标签样本的学习分类器

聚类和回归的区别

在数据分类过程中,我们可以直接知道回归对应的具体类别名,但是在聚类过程中,我们只能知道聚类对应的类别与xxx是同一种类别。

比如:我们在使用分类处理一些水果时,我们可以知道某一个水果具体是什么水果,但是聚类我们只能知道这个水果和其他的某些水果是同一种水果,但是我们却不能知道具体的水果类型名是什么。

聚类的基本方法有三大类:

划分方法(K均值、K-Means)

聚类与回归,Python数据分析,聚类,回归,数据挖掘

通过反复迭代,先随机分配均值点, 根据均值点形成聚簇,形成聚簇之后,再调整均值点。调整均值点后,再进一步反复进行迭代,最后找到我们相应的聚簇。

层次方法(层次聚类法)

凝聚的(agglomeration)和分裂的(divisive)层次聚类图示

聚类与回归,Python数据分析,聚类,回归,数据挖掘

层次聚类有两种方法,一种是自底向上的方法,这种方法称为凝聚法。另一种方法是自下而上的方法,该方法又称为划分的方法。

 凝聚法的过程:我们通过水来凝结成冰。首先根据数据进行相似性计算,把相似的数据形成一个簇,形成了各种小簇,进一步计算簇和簇之间的相似性,如果簇和簇之间的相似性更高,将他们合并形成更大的簇。从㡳向上凝聚,形成我们想要的一个聚簇的一个结束条件时,得到我们想要的一个聚簇(层次聚类的结束条件有很多方法,比如从㡳向上进行聚类时,当聚到第k个聚簇的时候,我们就停止迭代;另外一种,我们当进行迭代时,我们数据的相似性足够高,越往上走,聚簇和聚簇的相似性就会越来越低,当相似性的阈值低到一定程度时,就可以认为我的一个层次聚类停止,如此一来就得到了相应的聚簇,即为我们的层次聚类)

霍普金斯统计量

聚类与回归,Python数据分析,聚类,回归,数据挖掘

假如求出来的霍普金斯统计量数据接近1,这说明比较符合聚类的要求;若霍普金斯统计量接近0.5,则说明数据接近于均匀分布,不适合对其进行 均匀分布。

聚类的大致流程:

1、通过计算霍普金斯统计量判断数据质量,判断当前数据是否需要聚类

2、通过使用一些方法,如:肘方法。来计算我们需要聚簇的k的数量。

3、在了解了k的数量以后,使用相应的k均值,或者是层次聚类法进行聚类

4、聚类结束后,对聚类的结果进行评估,对于聚类的评估方法通常有两种方法,一种是外在方法,类似于分类,需要有一个基准,用来评价聚类结果的准确率;一种是内在方法,通过我们的轮廓系数,来评价聚类质量的好坏。轮廓系数越接近1,聚类的效果就越好;第三种,聚类中常见的四种特征。文章来源地址https://www.toymoban.com/news/detail-646237.html

到了这里,关于聚类与回归的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林...

    近几年来,各家商业银行陆续推出多种贷款业务,如何识别贷款违约因素已经成为各家商业银行健康有序发展贷款业务的关键 ( 点击文末“阅读原文”获取完整 数据 )。 相关视频 在贷款违约预测的数据 ( 查看文末了解数据免费获取方式 ) 的基础上,探索是否能通过借贷

    2024年02月09日
    浏览(49)
  • SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据...

    假如你有一个购物类的网站,那么你如何给你的客户来推荐产品呢? ( 点击文末“阅读原文”获取完整文档、 数据 ) 相关视频 这个功能在很多电商类网站都有,那么,通过SQL Server Analysis Services的数据挖掘功能,你也可以轻松的来构建类似的功能。 将分为三个部分来演示

    2024年02月16日
    浏览(50)
  • PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像...

    在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上 ( 点击文末“阅读原文”获取完整 代码数据 )。 “用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中,往往会忽视或无暇

    2024年02月10日
    浏览(48)
  • Python数据分析与数据挖掘:解析数据的力量

    随着大数据时代的到来,数据分析和数据挖掘已经成为许多行业中不可或缺的一部分。在这个信息爆炸的时代,如何从大量的数据中提取有价值的信息,成为了企业和个人追求的目标。而Python作为一种强大的编程语言,提供了丰富的库和工具,使得数据分析和数据挖掘变得更

    2024年02月11日
    浏览(59)
  • Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

    20 理解业务和数据:我们需要做好什么计划?_哔哩哔哩_bilibili 目录   一、理解业务和数据:我们需要做好什么计划? 1.1两个思想问题 1.2为什么数据挖掘不是万能的 1.3业务背景与目标 1.4把握数据  1.5总结 二、 准备数据:如何处理出完整、干净的数据? 2.1找到数据 2.2数据探索

    2024年02月05日
    浏览(62)
  • 【Python】数据分析+数据挖掘——探索Pandas中的数据筛选

    当涉及数据处理和分析时,Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法,使得数据的选择、筛选和处理变得简单而高效。在本博客中,我们将重点介绍Pandas中数据筛选的关键知识点,包括条件索引、逻辑操作符、 query() 方法以及

    2024年02月15日
    浏览(55)
  • 【数据挖掘】使用 Python 分析公共数据【01/10】

            本文讨论了如何使用 Python 使用 Pandas 库分析官方 COVID-19 病例数据。您将看到如何从实际数据集中收集见解,发现乍一看可能不那么明显的信息。特别是,本文中提供的示例说明了如何获取有关疾病在不同国家/地区传播速度的信息。         要继续操作,您需

    2024年02月12日
    浏览(47)
  • 【Python】数据分析+数据挖掘——探索Pandas中的索引与数据组织

    在数据科学和数据分析领域,Pandas是一个备受喜爱的Python库。它提供了丰富的数据结构和灵活的工具,帮助我们高效地处理和分析数据。其中,索引在Pandas中扮演着关键角色,它是一种强大的数据组织和访问机制,使我们能够更好地理解和操作数据。 本博客将探讨Pandas中与索

    2024年02月15日
    浏览(55)
  • 【Python】数据分析+数据挖掘——变量列的相关操作

    在Python和Pandas中,变量列操作指的是对DataFrame中的列进行操作,包括但不限于 选择列、重命名列、添加新列、删除列、修改列数据 等操作。这些操作可以帮助我们处理数据、分析数据和进行特征工程等。 概述 下面将会列出一些基本的操作指令 案例数据表university_rank.csv In

    2024年02月16日
    浏览(39)
  • 数据挖掘-实战记录(一)糖尿病python数据挖掘及其分析

    一、准备数据 1.查看数据 二、数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 3.研究各特征互相的关系 三、数据预处理 1.去掉唯一属性 2.处理缺失值 a)标记缺失值 b)删除缺失值行数  c

    2024年02月11日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包