【数据挖掘】学习笔记

这篇具有很好参考价值的文章主要介绍了【数据挖掘】学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


< 数据预处理 >

  • 聚集:多个样本或特征进行合并(减少样本规模、转换标度、更稳定)
  • 抽样:抽取一部分样本
  • 降维:在地位空间中表示样本(PCA、SVD)
  • 特征选择:选取重要特征(Lasso)
  • 特征创建:重新构建有用特征(Fouter转换)
  • 离散化
    • 将连续属性转换为离散属性的过程
    • 常用于分类
  • 二元化
    • 将连续或类别属性映射到一个或多个二值变量
    • 关联分析
    • 将连续属性转换为类别属性,将类别属性转换为一组二值变量
  • 变量变换
    • 将给定属性的值转换
    • 线性变换方法(简单函数)
  • 规范化
    • 最小-最大规范化(归一化)
    • z-score规范化(零均值规范化)
    • 小数定标规范化

< sklearn 机器学习平台 >

MLlib学习库:

  • 涵盖算法:分类算法、聚类算法、回归算法、降维算法
  • Scikit-learn 主要用法:
    • 符号标记:训练数据、训练集标签、测试数据、测试集标签、完整数据、标签数据
    • 数据划分:
      • train_test_split(x,y,random)
      • shuffle = True
    • 数据预处理
    • 监督学习算法(分类、
      • 逻辑回归
      • 支持向量机
      • 朴素贝叶斯

第3章 回归分析

3.1 回归分析的基本概念

  • 回归分析
  • 按涉及变量个数划分:一元回归、多元回归分析
  • 按照因变量的多少划分:简单回归分析、多重回归分析
  • 按照自变量和因变量之间的关系类型划分:线性回归分析、非线性回归分析。
  • 回归分析解决的问题:
    • 变量间的相关关系:确定性关系、非确定性关系
    • 预测或控制(一个或多个)变量的值
  • 回归分析的步骤
    • 确定变量:相关影响因素(自变量),主要的影响因素
    • 建立预测模型:自变量和因变量的历史统计资料计算
    • 进行相关分析:变量和预测对象的相关程度
    • 计算预测误差:是否可用于实际预测
    • 确定预测值:对预测值进行综合分析

3.2 一元线性回归

F检验、T检验

  • Y = a + bX + ε
  • 模型特点:
    • Y是X的线性函数加上误差项
    • 线性部分反映了由于X的变化引起的Y的变化
    • 误差选个ε是随机变量
    • 对于一个给定的X值,Y的期望值为E(Y)= a+bX
  • 回归方程:
  • 回归方程求解及模型检验:
    • 最小二乘法(方程求解),残差平方和
    • 拟合优度检验(模型检验)
    • 线性关系的显著性检验:显著性水平检验回归方程(回归参数的显著性检验),ESS,RSS
    • 一元线性回归实例
    • 评价标准r2

3.3 多元线性回归

  • Y = a + b1X1 + b2X2 + … + bnXn
  • 模型特点:
    • Y与X1X2X3…X4具有线性关系
    • 各个观测值Yi(i=1,2,3,…)之间相互独立
    • 随机误差ε~N(0,q2)
  • 最小二乘法求解多项式回归方程
  • 拟合优度检验
  • 回归参数的显著性检验
  • 多元线性回归实例

3.4 多项式回归

  • 多项式回归方程(非线性→线性)
  • 多项式回归方程实例
    • 多项式回归方程求解
    • 回归方程F检验
    • 多项式回归方程t检验

回归的评价标准

  • 均方误差(MSE)
  • 均方根误差(RMSE)
  • 平均绝对误差(MAE)
  • 选择MSE还是MAR?

第3-1章 正则化回归预测算法

3.1 岭回归

机器学习算法 - 岭回归算法:机器学习算法系列(四)- 岭回归算法(Ridge Regression Algorithm)

1. 欠拟合和过拟合问题

  • 欠拟合问题:原因是特征维度过少
  • 增加特征维度解决
  • 过拟合问题:特征维度过多
  • 解决过拟合的方法:
    • 正则化:算法中为防止数据过拟合采取的“惩罚”措施
      • L1正则化(L1范数)和L2正则化(L2范数)
    • 减少变量的数量

< 岭回归 >

  • 例岭回归是一种改良的最小二乘法(最小二乘法+L2正则项)
  • 会损失模型的精度和无偏性
  • 解决病态回归问题

1. 参数推导(调参)

2. λ的选择

  • 岭迹法
  • 交叉验证法

3.2 Lasso回归

机器学习算法 - Lasso回归算法:机器学习算法系列(五)- Lasso回归算法(Lasso Regression Algorithm)

  • 最小二乘法 + L1正则项

Lasso回归(套索回归)

  • Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)
  • 是一种线性回归的正则化方法,类似于岭回归,但使用L1正则化项而不是L2正则化项。
  • Lasso回归在处理特征选择和模型稀疏性时特别有用。

Lasso回归的优点和用途:

  • 特征选择:
  • Lasso回归有助于自动选择最重要的特征,将不重要的特征的系数稀疏化至零。这在高维数据集中非常有用,可以减少模型的复杂性,提高模型的解释性。
  • 稀疏性: Lasso回归鼓励模型参数变得稀疏,即许多参数变为零,这有助于简化模型并降低过拟合的风险。
  • 解释性: 与复杂模型相比,Lasso回归模型更容易解释。(可以找出哪些特征对目标变量的影响最大,哪些特征对目标变量没有影响)
  • 处理多重共线性: 类似于岭回归,Lasso回归也可以用来处理多重共线性问题。

Lasso回归的求解方法:

  • Lasso回归通常使用迭代算法,例如坐标下降法或梯度下降法来找到最小化损失函数的回归系数。
  • 在实际应用中,您可以通过交叉验证来选择适当的正则化参数 (\lambda) 值,以获得最佳的模型性能。
  • 总之,Lasso回归是一种有用的线性回归正则化技术,特别适用于特征选择和处理高维数据。通过调整正则化参数,您可以控制模型的复杂性,并在实际应用中获得良好的回归模型。

Lasso回归数学表达:

【数据挖掘】学习笔记,【数据科学与大数据技术】,数据挖掘,学习,笔记

1. 参数推导
2. λ的选择

3.3 Logistics回归

  • 通常来计算“一个事件成功或者失败”的概率
  • 卷积+池化+分类
  • Logistic回归,也称为Logit回归,是一种用于解决二分类问题的统计学和机器学习方法。
  • 尽管名字中包含"回归"一词,但Logistic回归实际上是一种分类算法,用于估计数据属于某一类别的概率。

Logistic回归的应用场景:

  • 二分类问题: Logistic回归通常用于解决二分类问题,其中目标变量可以分为两个类别,如是/否、合格/不合格、患病/健康等。
  • 概率估计: Logistic回归可以估计每个类别的概率,而不仅仅是预测类别标签。这对于需要考虑不确定性的任务非常有用,例如广告点击率预测。
  • 特征工程: Logistic回归可以用于特征选择和特征工程,帮助识别哪些特征对分类问题最为重要。
  • 评估风险: 在金融领域,Logistic回归可以用于评估客户违约的风险,或者在医学领域,用于预测疾病的发病风险。

Logistic回归的数学表达:

【数据挖掘】学习笔记,【数据科学与大数据技术】,数据挖掘,学习,笔记

Logistic回归的训练和预测:

【数据挖掘】学习笔记,【数据科学与大数据技术】,数据挖掘,学习,笔记

总之,Logistic回归是一个常用的分类算法,特别适用于二分类问题。它的输出可以理解为一个概率值,可以用于决策制定和风险评估。此外,Logistic回归的模型参数可解释性较强,有助于理解特征对分类的影响。

LR基础知识

伯努利分布
逻辑函数
线性回归模型
LR原理
LR损失函数文章来源地址https://www.toymoban.com/news/detail-695978.html

模型训练的基本方法——迭代法

3.4 支持向量回归(SVR)

分类:基本概念与技术

4.1 分类的基本概念

  • 分类任务示例
  • 分类的定义:测试集、训练集、预测测试集
  • 建立分类模型的一般方法
    • 第一步:建立模型
      • 步骤一:将样本转化为等维的数据特征
      • 步骤二:选择与类别相关的特征
      • 步骤三:分别得到训练样本集和测试样本集
    • 第二步:用模型进行分类

4.2 模型过拟合

  • 模型过拟合的原因
    • 训练数据少
    • 模型复杂度高:多重比较过程的影响

4.3 分类模型评估

  • 分类模型的评价指标:1234⑤精度⑥召回率

4.4 分类技术

  • 基分类器:决策树、基于规则的方法、最近邻、神经网络、深度学习、贝叶斯网络、支持向量机、softmax
  • 组合分类器:Boosting、Bagging、随机森林

4.4.1 决策树

  • Hunt算法
  • 表示属性测试条件的方法
  • 基于连续属性的样本划分
  • 问题1:如何确定最佳划分
  • 不纯性测量:熵
  • 连续属性:计算基尼指数
  • 增益率:克服信息增益的缺点

4.4.2 最近邻分类器

  • 最近邻分类器
  • 最近邻分类器的特点、不足
  • 提高KNN计算效率
    • 减少距离计算次数
    • 压缩
    • 删除

4.4.4 朴素贝叶斯分类器

  • 贝叶斯分类概述
  • 朴素贝叶斯分类器算法原理(三个知识点)
  • 贝叶斯公式:先验概率 + 条件概率 = 后验概率
  • 朴素贝叶斯分类器算法原理
  • 朴素贝叶斯分类的工作过程
  • 计算类别下特征属性的条件概率(关键)
  • 朴素贝叶斯建模流程
    • 确定特征属性
    • 获取训练样本
    • 对每个类别计算P(yi)
    • 对每个特征属性计算所有划分的条件概率
    • 对每个类别计算P(x|yi)P(yi)
    • 以P(x|yi)P(yi)最大项作为x所属类别

其他

  • 优化问题
  • Lagrangian函数
  • 线性不可分问题
  • 特征空间中的变换
  • 核函数
  • 选择核函数
  • 使用SVM的步骤
  • SVM小结
    • 优点:
      • 有效处理非线性分类问题
    • 不足

5. 深度学习

BP神经网络

到了这里,关于【数据挖掘】学习笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据科学与大数据导论期末复习笔记(大数据)

     来自于深圳技术大学,此笔记涵盖了期末老师画的重点知识,分享给大家。 等深分箱和等宽分箱的区别: 等宽分箱基于数据的范围来划分箱子,每个箱子的宽度相等。 等深分箱基于数据的观测值数量来划分箱子,每个箱子包含相同数量的数据点。    文本编辑相似度度量

    2024年01月23日
    浏览(47)
  • 数据挖掘-FINAL笔记

    2023-06-27 10:25 缺失值填充:data = Imputer(missing_values=‘NaN’, strategy=‘mean’, axis=0) 或fillna 2023-06-27 10:48 散点图:plt.scatter(iris.data[iris.target label,x_index],iris.data[iris.tar get label,y_index],label=iris.target_names[label],c=color) 2023-06-27 10:50 3q:a=abs(X-mean) ; a[i]3*std 2023-06-27 10:57 均值归一;MeanNor

    2024年02月11日
    浏览(40)
  • 数据挖掘笔记1

    课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili 数据是最底层的一种表现形式。 数据具有连续性。 从存储上来讲,数据分为逻辑上的和物理层的。 大数据:数据量大、产生速度快、数据种类多、    聚类:把一堆数据分为一组一组的(没有标签)

    2024年01月24日
    浏览(34)
  • [架构之路-174]-《软考-系统分析师》-5-数据库系统-7-数据仓库技术与数据挖掘技术

    数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。近年来,人们对数据仓库技术的关注程度越来越尚,其原因是过去的几十年中 ,建设了无数的应用系统,积累了大量的数据,但这些数据没有得到很好的利用,有时反而成为企

    2023年04月23日
    浏览(66)
  • 【数据挖掘】将NLP技术引入到股市分析

            在交易中实施的机器学习模型通常根据历史股票价格和其他定量数据进行训练,以预测未来的股票价格。但是,自然语言处理(NLP)使我们能够分析财务文档,例如10-k表格,以预测股票走势。 图片来源:亚当·盖特盖

    2024年02月16日
    浏览(39)
  • 数据仓库中的数据挖掘:探索新的方法和技术

    作者:禅与计算机程序设计艺术 引言 7.1 背景介绍 随着互联网和大数据时代的到来,各类企业面临着海量数据的积累和处理,数据仓库成为了满足这些需求的重要工具。数据仓库是一个大规模、集成了多个数据源的存储系统,旨在帮助用户进行数据的存储、查询和分析。数据

    2024年02月07日
    浏览(37)
  • 【数据挖掘与人工智能可视化分析】可视化分析:如何通过可视化技术进行数据挖掘和发现

    作者:禅与计算机程序设计艺术 数据挖掘(Data Mining)和人工智能(Artificial Intelligence,AI)已经成为当今社会热点话题。这两者之间的结合也带来了很多挑战。作为数据科学家、机器学习工程师、深度学习研究员等,掌握了数据的获取、清洗、处理、建模、应用这些技术的前提下,

    2024年02月07日
    浏览(74)
  • 电商技术揭秘十五:数据挖掘与用户行为分析

    相关系列文章 电商技术揭秘一:电商架构设计与核心技术 电商技术揭秘二:电商平台推荐系统的实现与优化 电商技术揭秘三:电商平台的支付与结算系统 电商技术揭秘四:电商平台的物流管理系统 电商技术揭秘五:电商平台的个性化营销与数据分析 电商技术揭秘六:前端

    2024年04月13日
    浏览(39)
  • 【数据挖掘与人工智能自然语言处理】自然语言处理和人工智能:如何利用自然语言处理技术进行数据挖掘

    作者:禅与计算机程序设计艺术 随着互联网和大数据时代的到来,数据挖掘已成为各个行业的热门话题。数据挖掘的核心在于发现数据中的有价值信息,而自然语言处理(NLP)技术是实现这一目标的重要手段。本文旨在通过自然语言处理技术进行数据挖掘,为数据挖掘提供一

    2024年02月05日
    浏览(94)
  • 【数据挖掘】国科大苏桂平老师数据库新技术课程作业 —— 第四次作业

    云计算与云数据库背景 云计算(cloud computing)是 IT 技术发展的最新趋势,正受到业界和学术界的广泛关注。云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共享基础架构的方法。它可以自我维护和管理庞大的虚拟计算资源(包括计算

    2024年02月04日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包