数据挖掘与机器学习

这篇具有很好参考价值的文章主要介绍了数据挖掘与机器学习。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一. 机器学习的种类

1. 有监督的机器学习 :

        分类 :

  •                  KNN 最近邻
  •                  逻辑回归 - 朴素贝叶斯估计
  •                  SVM 线性 或 非线性 优化模型
  •                  决策树模型 - 随机森林 - 其它集成模型
  •                  lightGBM - XGBOOST

        回归:

  •                   线性
  •                  非线性
  •                  加权平均回归

2.无监督的机器学习 :

  •                  聚类
  •                 关联
  •                 特征处理

二.  KNN ( K最近邻 )

argmax()  # 只返回索引
  1. 特征值(Features):(特征数据必须是2维数据)

     特征值是用来描述样本的属性或特征的值。在KNN中,每个样本都被表示为一个特征向量,其中每个特征对应向量中的一个维度。例如,在一个二维空间中,特征向量可以由两个特征值构成,分别表示样本在X轴和Y轴上的坐标。
  2. 标签(Labels):

    标签是我们希望预测的值,或者是我们希望将样本分类到的类别。在分类问题中,每个样本都有一个类别标签,而在回归问题中,标签通常是一个连续的数值。在KNN中,我们使用已知的特征值和标签构建模型,然后根据新的特征值预测或分类其对应的标签。
np.bincount([1,1,2,2,2,2,4,4,4,4]) # 看下标为几的出现几次

下标为0的 没有出现 0
下标为1,数字也为1的出现2次
下标为2 数字也为2的出现4次
下标为3,数字为3 为0次  
下标为4,数字为3 为4次 
答案是 (0,2,4,0,4)

三.  KNN运用(字符识别、文本分类、图像识别),通过你的邻居判断你是什么类别 

# 选几个邻居 进行分类 
sklearn.neighbors.KNeighborsClassfier(n_neighbors=5)
 n_neighbors = 5 是默认的

#获取数据
x = [[1],[2],[0],[0]]
y = [1,1,0,0]

# 机器学习
# 1. 实例化一个训练模型
estimator = KNeighborsClassfier(n_neighbors=2)

2. 调用fit方法进行训练
estimator.fit(x,y)

3. 预测其他值
ret = estimator.predict([-1])
print(ret)


四. K值的选取文章来源地址https://www.toymoban.com/news/detail-861603.html

  • K值过小: 过拟合,容易受异常点影响, 因为用较小的领域中训练实例进行预测
  • k值过大 :   欠拟合,容易受到样本均衡的问题

到了这里,关于数据挖掘与机器学习的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习——数据仓库与数据挖掘——期末复习(简答题)

    1 、试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。 查全率: 真实正例被预测为正例的比例 真正例率: 真实正例被预测为正例的比例 查全率与真正例率是相等的。 查准率:预测为正例的实例中真实正例的比例 假正例率: 真实反例被预测为正例的

    2024年02月10日
    浏览(63)
  • Python 数据挖掘与机器学习教程

    详情点击链接:Python 数据挖掘与机器学习 一: Python编程 Python编程入门 1、Python环境搭建( 下载、安装与版本选择)。 2、如何选择Python编辑器?(IDLE、Notepad++、PyCharm、Jupyter…) 3、Python基础(数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调

    2024年02月16日
    浏览(56)
  • 机器学习和数据挖掘01- lasso regularization

    Lasso正则化是一种线性回归中的正则化技术,旨在减少模型的复杂性并防止过拟合。Lasso(Least Absolute Shrinkage and Selection Operator)通过在损失函数中添加正则项,促使模型的系数变得稀疏,即某些系数会被压缩到零,从而实现特征选择。 在Lasso正则化中,我们引入了一个惩罚项

    2024年02月09日
    浏览(51)
  • 机器学习算法在数据挖掘中的应用

    在数据挖掘的实践中,各种机器学习算法都扮演着重要的角色,它们能够从数据中学习规律和模式,并用于预测、分类、聚类等任务。以下是几种常见的机器学习算法以及它们在数据挖掘任务中的应用场景和优缺点。 1. 决策树(Decision Trees):    - 应用场景:决策树广泛应

    2024年03月17日
    浏览(54)
  • 机器学习——数据仓库与数据挖掘复习(选择题、判断题)

    1. 以下不是分类问题的是(  B )。 A. 用户流失模型 B. 身高和体重关系 C. 信用评分 D. 营销响应 2. 对于回归分析,下列说法错误的是( D ) A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B. 线性相关系数可以是正的,也可以是负的 C. 回归

    2024年02月06日
    浏览(59)
  • 机器学习和数据挖掘04-PowerTransformer与 MinMaxScaler

    PowerTransformer 是用于对数据进行幂变换(也称为Box-Cox变换)的预处理工具。幂变换可以使数据更接近正态分布,这有助于某些机器学习算法的性能提升。它支持两种常用的幂变换:Yeo-Johnson变换和Box-Cox变换。 MinMaxScaler 是用于将数据进行最小-最大缩放的预处理工具。它将数据

    2024年02月10日
    浏览(54)
  • 机器学习和数据挖掘03-模型性能评估指标

    概念:模型正确预测的样本数量与总样本数量的比例。 公式:Accuracy = (TP + TN) / (TP + TN + FP + FN) TP (True Positives):正确预测为正例的样本数。即模型正确地将正例判定为正例。 TN (True Negatives):正确预测为负例的样本数。即模型正确地将负例判定为负例。 FP (False Positives):错误

    2024年02月10日
    浏览(181)
  • 大数据和智能数据应用架构系列教程之:大数据挖掘与机器学习

    作者:禅与计算机程序设计艺术 随着互联网的普及、移动互联网的爆炸性增长以及电子商务的兴起,传统的基于数据库的数据分析已不能满足当前信息社会对海量数据的处理需求。如何有效地进行大数据分析已经成为众多行业面临的共同难题。而数据挖掘和机器学习(Machi

    2024年02月08日
    浏览(51)
  • 机器学习和数据挖掘02-Gaussian Naive Bayes

    贝叶斯定理: 贝叶斯定理是概率中的基本定理,描述了如何根据更多证据或信息更新假设的概率。在分类的上下文中,它用于计算给定特征集的类别的后验概率。 特征独立性假设: 高斯朴素贝叶斯中的“朴素”假设是,给定类别标签,特征之间是相互独立的。这个简化假设

    2024年02月10日
    浏览(55)
  • 基于数据挖掘机器学习的心脏病患者分类建模与分析

    首先,读取数据集,该数据集是UCI上的心脏病患者数据集,其中包含了 303 条患者信息,每一名患者有 13 个字段记录其基本信息(年龄、性别等)和身体健康信息(心率、血糖等),此外有一个类变量记录其是否患有心脏病。详细的字段信息可见 此处。 类别字段 target 有两

    2024年01月19日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包