【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类

这篇具有很好参考价值的文章主要介绍了【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.粒子群算法的概念

PSO是粒子群优化算法(Particle Swarm Optimization)的英文缩写,是一种基于种群的随机优化技术,由Eberhart和Kennedy于1995年提出。粒子群算法是模仿昆虫、兽群、鸟群和鱼群等的群集行为,这些群体按照一种合作的方法寻找食物,群体中的每个成员通过学习它自身的经验和其他成员的经验来不断的改变其搜索方式。PSO由于操作简单、收敛速度快、并没有许多参数的调节,因此,被广泛应用于函数优化、神经网络训练、模糊系统控制以及其他遗传算法的应用领域。

2.粒子群算法的原理

粒子群优化算法的基本思想是通过群体中个体之间的协作和信息共享来寻找最优解。用一种粒子模拟种群个体,每个粒子可视为N维搜索空间中的一个搜索个体,粒子的当前位置即为对应优化问题的一个候选解,粒子的飞行过程即为该个体的搜索过程。粒子的飞行速度可根据粒子历史最优位置和种群历史最优位置进行动态调整。粒子仅有两个属性:速度和位置,速度代表移动的快慢,位置代表移动的方向。每个粒子单独搜寻的最优解叫做个体极值,粒子群中的最优个体极值作为当前全局的最优解。不断迭代,更新速度和位置。最终得到满足条件的最优解。流程如下:
【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类

PSO算法的步骤为:
(1)初始化所有粒子,即给它们的速度和位置赋值,并将个体的历史最优pBest设为当前位置,群体中的最优个体作为当前的gBest。
(2)在每一代的进化中,计算各个粒子的适应度函数值。
(3)如果当前适应度函数值优于历史最优值,则更新pBest。
(4)如果当前适应度函数值优于全局历史最优值,则更新gBest。
(5)对每个粒子i的第d维的速度和位置分别按照如下公式进行更新。其中w为惯量权重,一般初始化为0.9,随着进化过程线性递减到0.4;c1和c2是加速系数,传统上取固定值2.0;rand1和rand2是两个[0,1]区间上的随机数。
【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类

3.基于PSO-SVM对葡萄酒数据集进行分类

上面我们对粒子群算法PSO进行了原理介绍,接下来,我们将对SKlearn自带葡萄酒数据集进行分类,采用的分类算法为支持向量机(Support Vector Machine,SVM),通过PSO优化SVM的重要超参数c和g,寻找使模型效果最好的超参数c和g。从随机解出发,通过迭代寻找最优解,通过适应度来评价解的质量。PSO初始化为一群随机粒子,然后通过迭代找到最优解。所有的粒子具有位置(particle_position_vector)和速度(velocity_vector)两个属性。在每一次迭代中,粒子通过粒子本身所找到的最优解pbest和整个种群目前找到的最优解全局极值gbest来更新。接下来,我们直接上代码,查看整个过程。
第一步:导入相应的宝并查看葡萄酒数据集合

# 导入相应的包
import pandas as pd
import numpy as np
import random
from sklearn.svm import SVC
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris,load_wine
# 读取训练数据
x,y = load_wine(return_X_y=True)
x,Y = pd.DataFrame(x),pd.DataFrame(y)
x.shape,Y.shape

【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类
第二步,标准化或者归一化数据集,加快收敛,提升分类精度。

# 标准化
scaler = StandardScaler()
X = scaler.fit_transform(x)

第三步,初始化模型参数。

W = 0.5                                 # 惯性因子
c1 = 0.2                                # 学习因子
c2 = 0.5                                # 学习因子
n_iterations = 10                       # 迭代次数
n_particles = 80                       # 种群规模

第四步,设置适应度值,输出分类精度,并返回混淆矩阵错误结果分类情况。

def fitness_function(position):
    svclassifier = SVC(kernel='rbf',gamma=position[0],C=position[1])
    # 参数gamma和惩罚参数C以实数向量的形式进行编码作为pso粒子的位置
    svclassifier.fit(X,y)
    score = cross_val_score(svclassifier,X,y,cv=10).mean()# 交叉验证的精度
    print("分类精度:",score)
    Y_pred = cross_val_predict(svclassifier,X,y,cv=10)
    
    return confusion_matrix(Y, Y_pred)[0][1] + confusion_matrix(Y, Y_pred)[0][2] + confusion_matrix(Y, Y_pred)[1][0] + \
           confusion_matrix(Y, Y_pred)[1][2] + confusion_matrix(Y, Y_pred)[2][0] + confusion_matrix(Y, Y_pred)[2][1]\
        ,  confusion_matrix(Y, Y_pred)[0][1] + confusion_matrix(Y, Y_pred)[0][2] + confusion_matrix(Y, Y_pred)[1][0] + \
           confusion_matrix(Y, Y_pred)[1][2] + confusion_matrix(Y, Y_pred)[2][0] + confusion_matrix(Y, Y_pred)[2][1]

第五步,初始化粒子位置(particle_position_vector)和粒子速度(velocity_vector)

# 粒子位置向量
particle_position_vector = np.array([np.array([random.random() * 10, random.random() * 10]) for _ in range(n_particles)])
pbest_position = particle_position_vector    #个体极值等于最初位置
pbest_fitness_value = np.array([float('inf') for _ in range(n_particles)])   #个体极值的适应度值
gbest_fitness_value = np.array([float('inf'), float('inf')])    #全局极值的适应度值
gbest_position = np.array([float('inf'), float('inf')])
velocity_vector = ([np.array([0, 0]) for _ in range(n_particles)])  # 粒子速度

第六步,开始迭代

iteration = 0
while iteration < n_iterations:
    # plot(particle_position_vector)  #  粒子具体位置
    for i in range(n_particles):   # 对每个粒子进行循环
        fitness_cadidate = fitness_function(particle_position_vector[i])   # 每个粒子的适应度值=适应度函数(每个粒子的具体位置)
        # print("粒子误差", i, "is (training, test)", fitness_cadidate, " At (gamma, c): ",
              # particle_position_vector[i])

        if (pbest_fitness_value[i] > fitness_cadidate[1]):    # 每个粒子的适应度值与其个体极值的适应度值(pbest_fitness_value)作比较,如果更优的话,则更新个体极值,
            pbest_fitness_value[i] = fitness_cadidate[1]
            pbest_position[i] = particle_position_vector[i]

        if (gbest_fitness_value[1] > fitness_cadidate[1]):   # 更新后的每个粒子的个体极值与全局极值(gbest_fitness_value)比较,如果更优的话,则更新全局极值
            gbest_fitness_value = fitness_cadidate
            gbest_position = particle_position_vector[i]

        elif (gbest_fitness_value[1] == fitness_cadidate[1] and gbest_fitness_value[0] > fitness_cadidate[0]):
            gbest_fitness_value = fitness_cadidate
            gbest_position = particle_position_vector[i]

    for i in range(n_particles):  # 更新速度和位置,更新新的粒子的具体位置
        new_velocity = (W * velocity_vector[i]) + (c1 * random.random()) * (
                    pbest_position[i] - particle_position_vector[i]) + (c2 * random.random()) * (
                                   gbest_position - particle_position_vector[i])
        new_position = new_velocity + particle_position_vector[i]
        particle_position_vector[i] = new_position

    iteration = iteration + 1

【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类
第七步,输出最终的分类结果

print("全局最优点的位置是 ", gbest_position, "在第", iteration, "步迭代中(训练集,测试集)错误个数:", fitness_function(gbest_position))

【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类
第八步,我们将PSO得到的最优参数组合带入SVM,进行验证,如下:

# 进行验证
svclassifier_ = SVC(kernel='rbf',gamma=0.1412017,C=3.87776386)
svclassifier_.fit(X,y)
score = cross_val_score(svclassifier_,X,y,cv=10).mean()
print("验证后的结果为:",score)

【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类
至此,我们完成了通过PSO优化SVM算法,提升其在葡萄酒数据集上的分类效果。

4.总结

本篇,介绍了PSO优化算法的原理与迭代步骤,并采用PSO粒子群优化算法寻找支持向量机SVM算法的最佳参数进行分类,并取得了很好的模型效果,供大家参考学习。文章来源地址https://www.toymoban.com/news/detail-430752.html

到了这里,关于【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据挖掘算法与应用】——数据挖掘导论

    数据挖掘技术背景 大数据如何改变我们的生活 1.数据爆炸但知识贫乏   人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识

    2023年04月09日
    浏览(37)
  • 粒子群算法PSO优化支持向量机(PSO-SVM)的数据回归预测 matlab代码

    %%  清空环境变量 warning off             % 关闭报警信息 close all               % 关闭开启的图窗 clear                   % 清空变量 clc                     % 清空命令行 tic %%  导入数据 P_train = xlsread(\\\'data\\\',\\\'training set\\\',\\\'B2:G191\\\')\\\'; T_train= xlsread(\\\'data\\\',\\\'training set\\\',\\\'H2:H191\\\')\\\';

    2024年02月02日
    浏览(39)
  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(44)
  • 数据挖掘18大算法实现以及其他相关经典DM算法:决策分类,聚类,链接挖掘,关联挖掘,模式挖掘、图算法,搜索算法等

    【机器学习入门与实践】入门必看系列,含数据挖掘项目实战:模型融合、特征优化、特征降维、探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战:数据融合、特征优化、特征降维、探索性分析

    2024年02月09日
    浏览(34)
  • 数据挖掘|序列模式挖掘及其算法的python实现

    序列(sequence)模式挖掘也称为序列分析。 序列模式发现(Sequential Patterns Discovery)是由R.Agrawal于1995年首先提出的。 序列模式寻找的是事件之间在顺序上的相关性。 例如,“凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒”,就是一个序列关联规则。对于保险

    2024年04月09日
    浏览(47)
  • 数据挖掘在制造业中的预测与优化应用

    随着大数据时代的到来,数据挖掘技术在各行各业的应用日益广泛,尤其在制造业中,其对于提升生产效率、降低运营成本、优化供应链管理等方面发挥着不可替代的作用。本文将探讨数据挖掘在制造业中的预测与优化应用,通过深入剖析实际案例,揭示其如何助力制造业实

    2024年02月03日
    浏览(27)
  • 数据挖掘十大算法之Apriori算法

    国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法: C4.5 , k-Means , SVM , Apriori , EM , PageRank , AdaBoost , kNN , Naive Bayes , CART 这十个算法涵盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题

    2024年02月04日
    浏览(35)
  • 数据挖掘领域十大经典算法

    数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要 基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术 等,高度

    2024年02月08日
    浏览(52)
  • 【数据挖掘】——常见算法对比和选择

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步! 😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 概述 一般认为,数据挖掘领域所使用的方法均属于 机器学习算法、深度学

    2024年02月11日
    浏览(45)
  • 数据挖掘实验——Apriori算法实现

    关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。本实验主要目的是培养学生能够运用Apriori算法数据挖掘方法进行数据挖掘。 学习掌握数据挖掘方法中的Apriori算法。 就餐饮企业而

    2024年02月06日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包