【数据挖掘】学习笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了【数据挖掘】学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

< 数据预处理 >

聚集：多个样本或特征进行合并（减少样本规模、转换标度、更稳定）
抽样：抽取一部分样本
降维：在地位空间中表示样本（PCA、SVD）
特征选择：选取重要特征（Lasso）
特征创建：重新构建有用特征（Fouter转换）
离散化
- 将连续属性转换为离散属性的过程
- 常用于分类
二元化
- 将连续或类别属性映射到一个或多个二值变量
- 关联分析
- 将连续属性转换为类别属性，将类别属性转换为一组二值变量
变量变换
- 将给定属性的值转换
- 线性变换方法（简单函数）
规范化
- 最小-最大规范化（归一化）
- z-score规范化（零均值规范化）
- 小数定标规范化

< sklearn 机器学习平台 >

MLlib学习库：

涵盖算法：分类算法、聚类算法、回归算法、降维算法
Scikit-learn 主要用法：
- 符号标记：训练数据、训练集标签、测试数据、测试集标签、完整数据、标签数据
- 数据划分：
  - train_test_split(x,y,random)
  - shuffle = True
- 数据预处理
- 监督学习算法（分类、
  - 逻辑回归
  - 支持向量机
  - 朴素贝叶斯

第3章回归分析

3.1 回归分析的基本概念

回归分析
按涉及变量个数划分：一元回归、多元回归分析
按照因变量的多少划分：简单回归分析、多重回归分析
按照自变量和因变量之间的关系类型划分：线性回归分析、非线性回归分析。
回归分析解决的问题：
- 变量间的相关关系：确定性关系、非确定性关系
- 预测或控制（一个或多个）变量的值
回归分析的步骤
- 确定变量：相关影响因素（自变量），主要的影响因素
- 建立预测模型：自变量和因变量的历史统计资料计算
- 进行相关分析：变量和预测对象的相关程度
- 计算预测误差：是否可用于实际预测
- 确定预测值：对预测值进行综合分析

3.2 一元线性回归

F检验、T检验

Y = a + bX + ε
模型特点：
- Y是X的线性函数加上误差项
- 线性部分反映了由于X的变化引起的Y的变化
- 误差选个ε是随机变量
- 对于一个给定的X值，Y的期望值为E（Y）= a+bX
回归方程：
回归方程求解及模型检验：
- 最小二乘法（方程求解），残差平方和
- 拟合优度检验（模型检验）
- 线性关系的显著性检验：显著性水平检验回归方程（回归参数的显著性检验），ESS，RSS
- 一元线性回归实例
- 评价标准r²

3.3 多元线性回归

Y = a + b₁X₁ + b₂X₂ + … + b_nX_n
模型特点：
- Y与X₁X₂X₃…X₄具有线性关系
- 各个观测值Y_i(i=1,2,3,…)之间相互独立
- 随机误差ε~N(0,q²)
最小二乘法求解多项式回归方程
拟合优度检验
回归参数的显著性检验
多元线性回归实例

3.4 多项式回归

多项式回归方程（非线性→线性）
多项式回归方程实例
- 多项式回归方程求解
- 回归方程F检验
- 多项式回归方程t检验

回归的评价标准

均方误差（MSE）
均方根误差（RMSE）
平均绝对误差（MAE）
选择MSE还是MAR？

第3-1章正则化回归预测算法

3.1 岭回归

机器学习算法 - 岭回归算法：机器学习算法系列（四）- 岭回归算法（Ridge Regression Algorithm）

1. 欠拟合和过拟合问题

欠拟合问题：原因是特征维度过少
增加特征维度解决
过拟合问题：特征维度过多
解决过拟合的方法：
- 正则化：算法中为防止数据过拟合采取的“惩罚”措施
  - L1正则化（L1范数）和L2正则化（L2范数）
- 减少变量的数量

< 岭回归 >

例岭回归是一种改良的最小二乘法（最小二乘法+L2正则项）
会损失模型的精度和无偏性
解决病态回归问题

1. 参数推导（调参）

2. λ的选择

岭迹法
交叉验证法

3.2 Lasso回归

机器学习算法 - Lasso回归算法：机器学习算法系列（五）- Lasso回归算法（Lasso Regression Algorithm）

最小二乘法 + L1正则项

Lasso回归（套索回归）

Lasso回归（Least Absolute Shrinkage and Selection Operator Regression）
是一种线性回归的正则化方法，类似于岭回归，但使用L1正则化项而不是L2正则化项。
Lasso回归在处理特征选择和模型稀疏性时特别有用。

Lasso回归的优点和用途：

特征选择：
Lasso回归有助于自动选择最重要的特征，将不重要的特征的系数稀疏化至零。这在高维数据集中非常有用，可以减少模型的复杂性，提高模型的解释性。
稀疏性： Lasso回归鼓励模型参数变得稀疏，即许多参数变为零，这有助于简化模型并降低过拟合的风险。
解释性： 与复杂模型相比，Lasso回归模型更容易解释。（可以找出哪些特征对目标变量的影响最大，哪些特征对目标变量没有影响）
处理多重共线性： 类似于岭回归，Lasso回归也可以用来处理多重共线性问题。

Lasso回归的求解方法：

Lasso回归通常使用迭代算法，例如坐标下降法或梯度下降法来找到最小化损失函数的回归系数。
在实际应用中，您可以通过交叉验证来选择适当的正则化参数 (\lambda) 值，以获得最佳的模型性能。
总之，Lasso回归是一种有用的线性回归正则化技术，特别适用于特征选择和处理高维数据。通过调整正则化参数，您可以控制模型的复杂性，并在实际应用中获得良好的回归模型。

Lasso回归数学表达：

【数据挖掘】学习笔记,【数据科学与大数据技术】,数据挖掘,学习,笔记

1. 参数推导
2. λ的选择

3.3 Logistics回归

通常来计算“一个事件成功或者失败”的概率
卷积+池化+分类
Logistic回归，也称为Logit回归，是一种用于解决二分类问题的统计学和机器学习方法。
尽管名字中包含"回归"一词，但Logistic回归实际上是一种分类算法，用于估计数据属于某一类别的概率。

Logistic回归的应用场景：

二分类问题： Logistic回归通常用于解决二分类问题，其中目标变量可以分为两个类别，如是/否、合格/不合格、患病/健康等。
概率估计： Logistic回归可以估计每个类别的概率，而不仅仅是预测类别标签。这对于需要考虑不确定性的任务非常有用，例如广告点击率预测。
特征工程： Logistic回归可以用于特征选择和特征工程，帮助识别哪些特征对分类问题最为重要。
评估风险： 在金融领域，Logistic回归可以用于评估客户违约的风险，或者在医学领域，用于预测疾病的发病风险。

Logistic回归的数学表达：

【数据挖掘】学习笔记,【数据科学与大数据技术】,数据挖掘,学习,笔记

Logistic回归的训练和预测：

【数据挖掘】学习笔记,【数据科学与大数据技术】,数据挖掘,学习,笔记

总之，Logistic回归是一个常用的分类算法，特别适用于二分类问题。它的输出可以理解为一个概率值，可以用于决策制定和风险评估。此外，Logistic回归的模型参数可解释性较强，有助于理解特征对分类的影响。

LR基础知识

伯努利分布
逻辑函数
线性回归模型
LR原理
LR损失函数文章来源地址https://www.toymoban.com/news/detail-695978.html

模型训练的基本方法——迭代法

3.4 支持向量回归（SVR）

分类：基本概念与技术

4.1 分类的基本概念

分类任务示例
分类的定义：测试集、训练集、预测测试集
建立分类模型的一般方法
- 第一步：建立模型
  - 步骤一：将样本转化为等维的数据特征
  - 步骤二：选择与类别相关的特征
  - 步骤三：分别得到训练样本集和测试样本集
- 第二步：用模型进行分类

4.2 模型过拟合

模型过拟合的原因
- 训练数据少
- 模型复杂度高：多重比较过程的影响

4.3 分类模型评估

分类模型的评价指标：1234⑤精度⑥召回率

4.4 分类技术

基分类器：决策树、基于规则的方法、最近邻、神经网络、深度学习、贝叶斯网络、支持向量机、softmax
组合分类器：Boosting、Bagging、随机森林

4.4.1 决策树

Hunt算法
表示属性测试条件的方法
基于连续属性的样本划分
问题1：如何确定最佳划分
不纯性测量：熵
连续属性：计算基尼指数
增益率：克服信息增益的缺点

4.4.2 最近邻分类器

最近邻分类器
最近邻分类器的特点、不足
提高KNN计算效率
- 减少距离计算次数
- 压缩
- 删除

4.4.4 朴素贝叶斯分类器

贝叶斯分类概述
朴素贝叶斯分类器算法原理（三个知识点）
贝叶斯公式：先验概率 + 条件概率 = 后验概率
朴素贝叶斯分类器算法原理
朴素贝叶斯分类的工作过程
计算类别下特征属性的条件概率（关键）
朴素贝叶斯建模流程
- 确定特征属性
- 获取训练样本
- 对每个类别计算P(y_i)
- 对每个特征属性计算所有划分的条件概率
- 对每个类别计算P(x|y_i)P(y_i)
- 以P(x|y_i)P(y_i)最大项作为x所属类别

其他

优化问题
Lagrangian函数
线性不可分问题
特征空间中的变换
核函数
选择核函数
使用SVM的步骤
SVM小结
- 优点：
  - 有效处理非线性分类问题
- 不足

5. 深度学习

BP神经网络

到了这里，关于【数据挖掘】学习笔记的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【数据挖掘】学习笔记

第3章回归分析

3.1 回归分析的基本概念

3.2 一元线性回归

3.3 多元线性回归

3.4 多项式回归

回归的评价标准

第3-1章正则化回归预测算法

3.1 岭回归

3.2 Lasso回归

3.3 Logistics回归

LR基础知识

模型训练的基本方法——迭代法

3.4 支持向量回归（SVR）

分类：基本概念与技术

4.1 分类的基本概念

4.2 模型过拟合

4.3 分类模型评估

4.4 分类技术

4.4.1 决策树

4.4.2 最近邻分类器

4.4.4 朴素贝叶斯分类器

其他

5. 深度学习

BP神经网络

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

【数据挖掘】学习笔记

第3章 回归分析

3.1 回归分析的基本概念

3.2 一元线性回归

3.3 多元线性回归

3.4 多项式回归

回归的评价标准

第3-1章 正则化回归预测算法

3.1 岭回归

3.2 Lasso回归

3.3 Logistics回归

LR基础知识

模型训练的基本方法——迭代法

3.4 支持向量回归（SVR）

分类：基本概念与技术

4.1 分类的基本概念

4.2 模型过拟合

4.3 分类模型评估

4.4 分类技术

4.4.1 决策树

4.4.2 最近邻分类器

4.4.4 朴素贝叶斯分类器

其他

5. 深度学习

BP神经网络

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

第3章回归分析

第3-1章正则化回归预测算法