01.机器学习引言

这篇具有很好参考价值的文章主要介绍了01.机器学习引言。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.机器学习的步骤

1. 数据搜集

其中数据划分，是将数据集分为训练集、验证集和测试集（通常不考虑时间）

2. 数据清洗

3. 特征工程

提取对象：原始数据（特征提取一般在特征选择之前）
提取目的：自动地构建新的特征，将原始数据转换为一组具有明显物理意义（例如，几何特征、纹理特征）或统计意义的特征
常用方法：
- 降维方面：PCA、ICA、LDA等
- 图像方面：SIFT、Gabor、HOG等
- 文本方面：词袋模型、词嵌入模型等

注意：传统机器学习跟深度学习在特征提取的区别：

深度学习不需要去做特征工程，模型自己对数据做特征工程

4. 数据建模

4.1 模型分类：

概率模型：决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型等
非概率模型：感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络等

4.2`损失函数(衡量模型的好坏)`：

损失函数就是用来衡量模型预测结果跟真实数据之间的真值的。例如，平均损失函数（Quadratic Loss Function）L(Y,f(x)) = (Y- f(x))²，损失函数越小，模型性能越好。

所以我们在设定好一个模型之后，给定一个训练集，训练的目的就是去优化这个损失函数：

$\mathop {\min }\limits_f {1 \over N}\sum\limits_{i = 1}^n {L{{({y_i},f({x_i}))}}}$

4.3 优化算法

怎么求这个损失函数呢？怎求的具体算法就称为优化算法,现在主要的优化算法有：梯度下降法、牛顿法、拟牛顿法、ADAM等等。

4.4评价指标

(1).评测模型好坏的评价指标：

正确肯定（True Positive,TP）：预测为真，实际为真
正确否定（True Negative,TN）：预测为假，实际为假
错误肯定（False Positive,FP）：预测为真，实际为假
错误否定（False Negative,FN）：预测为假，实际为真

(2).参考指标

Accuracy (准确率) = $\over {TP + {\rm{TN}} + {\rm{FP + FN}}}}$

Precision(精确率) = $\over {TP + {\rm{FP}}}}$

Recall(召回率) = $\over {TP + {\rm{FN}}}}$

F1 score = $\times {\rm{Precision}} \times {\rm{Recall}}} \over {{\rm{Precision}} + {\rm{Recall}}}}$
3.

2.数据集

2.1 K折交叉验证

交叉验证既可以解决数据集的数据量不够大的问题，也可以解决参数调优的问题。

步骤：

1.使用训练集训出k个模型

2.用k个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

3.选取代价函数值最小的模型

4.用步骤3中选出的模型对测试集计算，得出推广误差（代价函数的值）

2.2 数据集的不均衡

数据不平衡是指数据集中各类样本数量不均匀的情况。这种情况会给模型的训练带来很大的问题

平滑数据集分布不平衡的解决方法：

SMOTE (Synthetic Minority Over-sampling Technique)算法：在少样本的距离的中间再生成一个新的样本

3.机器学习分类

监督学习：输入的数据中有监督信息，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数
无监督学习:输入数据中没有监督信息，采用聚类方法，学习结果为类别。典型的无监督学习有聚类，降维算法等。除此之外，还有自监督学习，半监督学习，对比学习等概念。
强化学习：以环境为反馈（奖/惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法。

3.1 监督学习

分类（classfication）
回归(regression)

3.2 无监督

聚类（Clustering）
降维(Demensionality Reduction)

3.3 强化学习

用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。文章来源地址https://www.toymoban.com/news/detail-664386.html

4.编程基础

编程语言：python、R
编程系统：Linux、anaconda
编程平台：jupyter notebook , vscode,pycharm
编程库：numpy,pandas,matplotlib,scikit-learn,pytorch,tensorflow

到了这里，关于01.机器学习引言的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

01.机器学习引言

1.机器学习的步骤

1. 数据搜集

2. 数据清洗

3. 特征工程

4. 数据建模

4.1 模型分类：

4.2`损失函数(衡量模型的好坏)`：

4.3 优化算法

4.4评价指标

2.数据集

2.1 K折交叉验证

2.2 数据集的不均衡

3.机器学习分类

4.编程基础

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

01.机器学习引言

1.机器学习的步骤

1. 数据搜集

2. 数据清洗

3. 特征工程

4. 数据建模

4.1 模型分类：

4.2损失函数(衡量模型的好坏)：

4.3 优化算法

4.4评价指标

2.数据集

2.1 K折交叉验证

2.2 数据集的不均衡

3.机器学习分类

4.编程基础

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2

4.2`损失函数(衡量模型的好坏)`：