【机器学习】DBSCAN聚类算法(含Python实现)

这篇具有很好参考价值的文章主要介绍了【机器学习】DBSCAN聚类算法(含Python实现)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、算法介绍

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,可以将数据点分成不同的簇,并且能够识别噪声点(不属于任何簇的点)。

DBSCAN聚类算法的基本思想是:

在给定的数据集中,根据每个数据点周围其他数据点的密度情况,将数据点分为核心点、边界点和噪声点。

  • 核心点是周围某个半径内有足够多其他数据点的数据点;
  • 边界点是不满足核心点要求,但在某个核心点的半径内的数据点;
  • 噪声点则是不满足任何条件的点。

接着,从核心点开始,通过密度相连的数据点不断扩张,形成一个簇。

【机器学习】DBSCAN聚类算法(含Python实现)

DBSCAN算法的优点是能够处理任意形状的簇,不需要先预先指定簇的个数,能够自动识别噪声点并将其排除在聚类之外。

然而,该算法的缺点是对于密度差异较大的数据集,可能无法有效聚类。此外,算法的参数需要根据数据集的特性来合理选择,如半径参数和密度参数。

二、例子

假设我们有以下的数据点集合:

[(1,1), (1,2), (2,1), (8,8), (8,9), (9,8), (15,15)]

我们可以使用DBSCAN算法来将这些点分成不同的簇。

首先,我们需要设置两个参数:

  • 半径 ϵ \epsilon ϵ
  • 最小样本数 m i n P t s minPts minPts

我们这里设置 ϵ = 2 \epsilon=2 ϵ=2 m i n P t s = 3 minPts=3 minPts=3

接下来,我们从数据集中选取一个点,比如第一个点 ( 1 , 1 ) (1,1) (1,1)作为种子点,并将该点标记为“核心点”,因为它周围有超过 m i n P t s minPts minPts个点在半径 ϵ \epsilon ϵ的范围内。

然后,我们找到与该点距离在 ϵ \epsilon ϵ内的所有点,将它们标记为与该点“密度直达”(density-reachable),并将这些点加入到同一个簇内。这里包括(1,2)和(2,1)。

接着,我们选取下一个未被分类的点,这里是(8,8),将其标记为“核心点”,并将与它距离在 ϵ \epsilon ϵ内的所有点加入同一簇中,这里包括(8,9)和(9,8)。

最后,我们选取最后一个未被分类的点,(15,15),但该点只有一个点在 ϵ \epsilon ϵ内,不足以满足 m i n P t s minPts minPts的要求,因此该点被标记为噪声点。

于是,最终的聚类结果为:

Cluster 1: [(1,1), (1,2), (2,1)]
Cluster 2: [(8,8), (8,9), (9,8)]
Noise: [(15,15)]

可以看出,DBSCAN算法成功地将数据点分成了两个簇,并且将噪声点(15,15)排除在聚类之外。

三、Python实现

3.1 例1

我们还是以上面例子为例,进行Python实现:

from sklearn.cluster import DBSCAN
import numpy as np

# 输入数据
X = np.array([(1,1), (1,2), (2,1), (8,8), (8,9), (9,8), (15,15)])

# 创建DBSCAN对象,设置半径和最小样本数
dbscan = DBSCAN(eps=2, min_samples=3)

# 进行聚类
labels = dbscan.fit_predict(X)

# 输出聚类结果
for i in range(max(labels)+1):
    print(f"Cluster {i+1}: {list(X[labels==i])}")
print(f"Noise: {list(X[labels==-1])}")

【机器学习】DBSCAN聚类算法(含Python实现)
与手算结果一致。

我们使用chatgpt对上面的代码翻译一下:

【机器学习】DBSCAN聚类算法(含Python实现)

这表明DBSCAN算法已经在输入数据中识别出了三个簇,第一个簇有三个点,第二个簇有三个点,第三个簇有一个点。在这个特定的数据集中没有噪声。

3.2 算法参数详解

下面对sklearn.cluster模块中的参数进行说明:

【机器学习】DBSCAN聚类算法(含Python实现)
总之,不同的聚类算法具有不同的参数设置,可以根据具体问题选择不同的算法和参数组合来实现最佳的聚类效果。

DBSCAN算法的调用方法如下:

DBSCAN(eps=0.5, *, min_samples=5, metric='euclidean', metric_params=None, algorithm='auto', leaf_size=30, p=None, n_jobs=None)

该算法提供了多个可调参数,以控制算法的聚类效果。下面对常用的参数进行详细说明:

  • eps:控制着半径的大小,是判断两个数据点是否属于同一簇的距离阈值。默认值为0.5。
  • min_samples: 控制着核心点周围所需的最小数据点数。默认值为5。
  • metric: 用于计算距离的度量方法,可以选择的方法包括欧式距离(euclidean)、曼哈顿距离(manhattan)等。默认值为欧式距离。
  • algorithm: 用于计算距离的算法,可以选择的算法包括Ball Tree(ball_tree)、KD Tree(kd_tree)和brute force(brute)。Ball Tree和KD Tree算法适用于高维数据,brute force算法适用于低维数据。默认值为auto,自动选择算法。
  • leaf_size: 如果使用Ball Tree或KD Tree算法,这个参数指定叶子节点的大小。默认值为30。
  • p: 如果使用曼哈顿距离或闵可夫斯基距离(minkowski),这个参数指定曼哈顿距离的p值。默认值为2,即欧式距离。
  • n_jobs: 指定并行运算的CPU数量。默认值为1,表示单CPU运算。如果为-1,则使用所有可用的CPU。
  • metric_params: 如果使用某些度量方法需要设置额外的参数,可以通过这个参数传递这些参数。默认值为None。

这些参数对于控制DBSCAN算法的聚类效果非常重要,需要根据具体的数据集和需求进行选择和调整。在使用DBSCAN算法时,我们通常需要对这些参数进行多次实验和调整,以达到最佳的聚类效果。

3.3 鸢尾花数据集

再以著名的鸢尾花数据集为例进行Python实现:

from sklearn.cluster import DBSCAN
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

# 加载数据集
iris = load_iris()
X = iris.data

# 数据预处理,标准化数据
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 使用DBSCAN聚类算法
dbscan = DBSCAN(eps=0.5, min_samples=5)
y_pred = dbscan.fit_predict(X)

# 输出聚类结果
print('聚类结果:', y_pred)

【机器学习】DBSCAN聚类算法(含Python实现)

代码解释如下:

【机器学习】DBSCAN聚类算法(含Python实现)
【机器学习】DBSCAN聚类算法(含Python实现)

总之,这段代码演示了如何使用sklearn.cluster模块中的DBSCAN聚类算法对数据进行聚类分析,首先通过标准化对数据进行预处理,然后设置DBSCAN算法的参数,对数据集进行拟合和预测,最后输出聚类结果。

不过这次结果中将很多点设置为了噪声点(当然我们可以将噪声点归为一类),如果觉得现在的结果不满意,可以进一步调整算法中的参数。这里就省略了。文章来源地址https://www.toymoban.com/news/detail-421941.html

到了这里,关于【机器学习】DBSCAN聚类算法(含Python实现)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】DBSCAN算法

    参考链接: https://blog.csdn.net/haveanybody/article/details/113092851 https://www.jianshu.com/p/dd6ce77bfb8a https://blog.csdn.net/qq_38563206/article/details/120941479 DBSCAN(Density-Based Spatial Clustering of Applica tion with Noise)算法是于1996年提出的一种简单的、有效的基于密度的聚类算法,该算法利用类的密度连通性

    2024年01月19日
    浏览(28)
  • 聚类算法--DBSCAN算法

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个基于密度的聚类算法。算法把簇看作数据空间中由低密度区域分割开的高密度对象区域;将足够高密度的区域划为簇,可以在有噪音的数据集中发现任意形状的聚类。 在DBSCAN 算法中有两个重要的参数: Eps 和 MinPtS 。

    2024年01月21日
    浏览(32)
  • DBSCAN聚类算法

    DBSCAN (density-based spatial clustering of applications with noise),即“具有噪声的基于密度的空间聚类应用”。它的原理是识别特征空间的“拥挤”区域中的点,在这些区域中许多点靠在一起,这些区域称为特征空间中的 密集 区域。密集区域最终将有相对较空的区域分隔开。 在密集区

    2024年02月06日
    浏览(30)
  • 【Java应用】使用Java实现机器学习算法:聚类、分类、预测

    机器学习是一种人工智能技术,旨在通过使用数据和统计分析来让计算机系统自动改进性能。机器学习算法可分为三大类:聚类、分类和预测。聚类算法用于将数据集分成不同的群组;分类算法用于将数据分为不同的类别;预测算法用于预测未来事件或趋势。 机器学习算法广

    2023年04月27日
    浏览(28)
  • 机器学习|DBSCAN 算法的数学原理及代码解析

    聚类是机器学习领域中一项重要的任务,它可以将数据集中相似的样本归为一类。 DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是一种是一种经典的密度聚类算法,它能够有效地发现任意形状的聚类簇,并且可以识别出噪声点。在本文中,我们将深入探讨 DBSCAN 算法

    2024年02月11日
    浏览(35)
  • 密度聚类算法(DBSCAN)实验案例

    DBSCAN是一种强大的基于密度的聚类算法,从直观效果上看,DBSCAN算法可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。DBSCAN的一个巨大优势是可以对任意形状的数据集进行聚类。 本任务的主要内容: 1、 环形数据集聚类 2、 新月形数据集聚类 3、

    2024年02月08日
    浏览(36)
  • 基于密度的聚类算法(1)——DBSCAN详解

    基于密度的聚类算法(1)——DBSCAN详解 基于密度的聚类算法(2)——OPTICS详解 基于密度的聚类算法(3)——DPC详解 1. DBSCAN简介 DBSCAN(Density-Based Spatial Clustering of Applications with Noise, 具有噪声的基于密度的聚类方法 )是一种典型的基于密度的空间聚类算法。和K-Means,BIR

    2024年01月24日
    浏览(34)
  • 毫米波雷达点云 DBSCAN聚类算法

    聚类的目的是将一组数据点划分为具有相似特征或属性的组或簇。通过聚类分析,我们可以识别出数据中的内在模式、结构和关联关系,从而获得对数据的更深入理解。 具体来说,聚类的目的可以分为以下三部分: 发现数据的内在结构: 聚类可以将数据分成簇,这些簇可能

    2024年02月06日
    浏览(35)
  • 【OpenCV-Python】——机器学习kNN算法&SVM算法&k均值聚类算法&深度学习图像识别&对象检测

    目录 前言: 1、机器学习 1.1 kNN算法 1.2 SVM算法(支持向量机)  1.3 k均值聚类算

    2024年02月05日
    浏览(36)
  • 深度解读DBSCAN聚类算法:技术与实战全解析

    探索DBSCAN算法的内涵与应用,本文详述其理论基础、关键参数、实战案例及最佳实践,揭示如何有效利用DBSCAN处理复杂数据集,突破传统聚类限制。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智

    2024年02月05日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包