统计学补充概念-16-支持向量机 (SVM)

这篇具有很好参考价值的文章主要介绍了统计学补充概念-16-支持向量机 (SVM)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

概念

支持向量机(Support Vector Machine,SVM)是一种用于分类和回归的机器学习算法。SVM的主要目标是找到一个最优的超平面,可以将不同类别的数据样本分开,同时使得支持向量(离超平面最近的样本点)与超平面之间的间隔最大化。这个超平面可以用于分类新的样本数据。

SVM在分类问题中的工作原理如下:

线性可分情况:如果数据可以在特征空间中被一个超平面完美地分开,SVM会寻找最大化类别之间间隔的超平面。这个间隔被称为“间隔边界”。

软间隔与松弛变量:实际数据可能存在一些噪声或离群点,导致无法完美分开。SVM引入了“软间隔”概念,允许一些样本位于超平面的错误一侧。为了处理这种情况,SVM引入了“松弛变量”来调整样本允许违反间隔边界的程度。

核技巧与非线性情况:SVM还可以通过“核技巧”来处理非线性问题。核技巧允许在高维特征空间中进行计算,从而在低维空间中解决非线性问题。

SVM还有一个重要的概念,即“支持向量”,它是离超平面最近的样本点。SVM的决策边界仅依赖于这些支持向量,因此它对其他数据点的分布没有那么敏感。文章来源地址https://www.toymoban.com/news/detail-681777.html

代码实现

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 生成虚拟数据集
X, y = make_classification(n_samples=200, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1)

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建SVM模型
model = SVC(kernel='linear')  # 线性核函数

# 在训练集上训练模型
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# 可视化决策边界
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')

# 绘制SVM的决策边界
coef = model.coef_[0]
intercept = model.intercept_[0]
x_boundary = np.linspace(X[:, 0].min(), X[:, 0].max(), 100)
y_boundary = -(coef[0] * x_boundary + intercept) / coef[1]
plt.plot(x_boundary, y_boundary, 'k--')

plt.title("SVM Decision Boundary")
plt.show()

到了这里,关于统计学补充概念-16-支持向量机 (SVM)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《SPSS统计学基础与实证研究应用精解》视频讲解:SPSS依托统计学处理数据的应用场景

    《SPSS统计学基础与实证研究应用精解》1.4 视频讲解 视频为 《SPSS统计学基础与实证研究应用精解》张甜 杨维忠著 清华大学出版社 一书的随书赠送视频讲解1.4节内容 。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。本书旨在手把手教会使用SPSS撰写实

    2024年01月23日
    浏览(40)
  • 【应用统计学】方差分析

    【例7-1】 三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策。( α=0.05 )  如果检验结果 接受原假设 ,则样本数据表明三台设备的平均灌装时间没有显著差异,选择任何一家提供商

    2023年04月16日
    浏览(30)
  • 统计学 一元线性回归

    回归(Regression) :假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量 线性回归 :因变量和自变量之间是线性关系 非线性回归 :因变量和自变量之间是非线性关系 变量间的关系 :往往分为 函数关系

    2024年02月06日
    浏览(27)
  • 统计学期末复习整理

    统计学:描述统计学和推断统计学。计量尺度:定类尺度、定序尺度、定距尺度、定比尺度。 描述统计中的测度: 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。 离散系数 也称为标准差系数,通常是用一组数据的标准差与其平均数之比计算 C . V . = s x ‾

    2024年02月07日
    浏览(33)
  • SCAU 统计学 实验5

    8.14 总体平均值(μ):7.0 cm 总体方差(σ²):0.03 cm² 样本平均值(x̄):6.97 cm 样本方差(s²):0.0375 cm² 样本大小(n):80 在这个问题中,我们已经知道总体方差(σ²),所以应该使用 z 检验。 将检验以下零假设(H₀): H₀: μ = 7.0 cm 与备择假设(H₁): H₁: μ ≠

    2024年02月01日
    浏览(28)
  • 数据科学、统计学、商业分析

    数据科学、统计学、商业分析是在各方面有着不同的侧重和方向的领域。  1.专业技能 数据科学(Data Science):数据科学涉及从大量数据中提取有价值的信息、模式和洞察力的领域。它使用多种技术和领域知识,如统计学、机器学习、数据库管理、数据可视化等,进行数据清

    2024年02月15日
    浏览(37)
  • 统计学-R语言-3

    本篇文章是介绍对数据的部分图形可视化的图型展现。 需要注意的是,给直方图拟合正态分布曲线并非总是适用,有时甚至是荒谬的,容易产生误导。合理的做法是为直方图拟合一条核密度估计曲线,它是数据实际分布的一种近似描述。 下面通过一个实际例子说明给直方图

    2024年01月16日
    浏览(32)
  • 统计学-R语言-1

    统计学(statistics)是“数据的科学” 1.是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。 2.统计学进行推断的基础是数据(data)。数据不仅仅限于数字,也可能是图表、视频、音频或者文字。 3.收集到数据之后,利用一些方法来整理和分析数据,最后得到结

    2024年02月03日
    浏览(31)
  • 卫生统计学 SAS代码复习

    这段SAS代码的意义如下: PROC UNIVARIATE :指定使用单变量分析过程。 mu0 =20.70 :指定假设 总体均值 为20.70。 NORMAL :指定数据符合正态分布。 VAR x :指定变量x为分析对象。 RUN :运行程序。综上, 这段代码的意义是对变量x进行单变量分析,假设其均值为20.70 ,数据符合正态

    2024年02月10日
    浏览(19)
  • 统计学-R语言-4.5

    本篇文章将继续对数据的类型做介绍,本片也是最后一个介绍数据的。 掌握描述多变量数据的分析方法:多维列联表、复式条形图、并列箱线图、点带图、多变量散点图(重叠散点图和矩阵式散点图)。 除了一维表、二维表,在实际中更多的是多维表,也就是多个变量交叉

    2024年02月01日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包