【机器学习】数据预处理 - 归一化和标准化

这篇具有很好参考价值的文章主要介绍了【机器学习】数据预处理 - 归一化和标准化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

「作者主页」:士别三日wyx
「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者
「推荐专栏」:对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》

处理数据之前,通常会使用一些转换函数将「特征数据」转换成更适合「算法模型」的特征数据。这个过程,也叫数据预处理。

比如,我们在择偶时,有身高、体重、存款三个特征,身高是180、体重是180、存款是180000;存款的数值跟其他数据不在一个数量级,这意味着存款的对择偶结果的影响比较大,但我们认为这三个特征同样重要,这时候就需要把这些规格不同的数据转换到同一规格。

「归一化」是常用的预处理方式之一,就是把数据转换到 0~1 之间。


一、数据预处理API

sklearn.preprocessing 是数据预处理的 API

sklearn.preprocessing.MinMaxScaler( feature_range=(0,1) )

  • MinMaxScaler.fit_transform( data ):接收array类型数据,返回归一化后的array类型数据。

参数:

  • feature_range=(0,1):(可选,默认0~1)指定归一化的范围,。

二、准备数据集

准备一个测试用的「数据集」,这里我们用 datasets 自带的 鸢尾花数据集

from sklearn import datasets

# 获取数据源
iris = datasets.load_iris()
# 打印数据
print(iris.data)

输出:

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]

从输出结果可以看到,数据规格都是有「差异」的,接下来,我们对数据进行归一。


三、归一化处理

fit_transform() 可以对数据进行「归一」处理

from sklearn import preprocessing
from sklearn import datasets


# 初始化
mm = preprocessing.MinMaxScaler()

# 获取数据源
iris = datasets.load_iris()

# 归一化处理
new_data = mm.fit_transform(iris.data)
print(new_data)

输出:

[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 ......
 [0.44444444 0.41666667 0.69491525 0.70833333]]

从结果可以看到,归一后的结果,数据规格都在 0~1 之间。

实际上,fit_transform() 不只可以 “归1” ,我们自己设置归一的范围。


四、设置归一化范围

实例化 MinMaxScaler 时,指定 feature_range 参数的值,可以设置归一的「范围」

from sklearn import preprocessing
from sklearn import datasets


# 初始化
mm = preprocessing.MinMaxScaler(feature_range=(2,3))

# 获取数据源
iris = datasets.load_iris()

# 归一化处理
new_data = mm.fit_transform(iris.data)
print(new_data)

输出:

[[2.22222222 2.625      2.06779661 2.04166667]
 [2.16666667 2.41666667 2.06779661 2.04166667]
 ......
 [2.44444444 2.41666667 2.69491525 2.70833333]]

从输出结果可以看到,数据的范围变成 2~3 区间。

接下来,我们了解一下,MinMaxScaler 是如何进行归一的。


五、归一化原理

MinMaxScaler 根据以下「公式」进行归一:

数据预处理归一化,《机器学习入门到精通》,机器学习,人工智能,ai

  • 以列为基准,max为一列的最大值,min为一列的最小值
  • mx、mi是归一指定的区间,默认mx=1,mi=0

我们准备一些测试数据:

数据预处理归一化,《机器学习入门到精通》,机器学习,人工智能,ai

我们拿特征一这一列举例,第一个数是90,先带入第一个公式:X‘=(90-60)/(90-60)=1
再带入第二个公式:X"=1*1+0=1
那么第一个数就转换成1.

知道了归一化的计算方式后,可以发现归一化存在一定的「局限性」
归一化是根据最大值和最小值来计算的,当最大值/最小值出现异常时,比如最大值跟其他数据差的非常多,那么这种计算方式就会存在较大的误差。只适合传统精确小数据场景,对于其他场景,可以使用标准化的方式。


六、标准化

sklearn.preprocessing.StandardScaler()

  • StandardScaler.fit_transform( data ):接收array类型数据,返回保准化后的array类型数据。

我们将归一化的案例,用「标准化」函数再处理一遍

from sklearn import preprocessing
from sklearn import datasets


# 初始化
ss = preprocessing.StandardScaler()

# 获取数据源
iris = datasets.load_iris()

# 标准化处理
new_data = ss.fit_transform(iris.data)
print(new_data)

输出:

[[-9.00681170e-01  1.01900435e+00 -1.34022653e+00 -1.31544430e+00]
 [-1.14301691e+00 -1.31979479e-01 -1.34022653e+00 -1.31544430e+00]
 ......
 [ 6.86617933e-02 -1.31979479e-01  7.62758269e-01  7.90670654e-01]]

标准化的计算方式和概率论的标准化公式一样:

数据预处理归一化,《机器学习入门到精通》,机器学习,人工智能,ai文章来源地址https://www.toymoban.com/news/detail-554554.html

  • 以列为基准,mean是平均值,0是标准差

到了这里,关于【机器学习】数据预处理 - 归一化和标准化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • matlab中矩阵的归一化和标准化处理

    1、归一化:将数据映射到0-1的区间中。 matlab中矩阵的归一化处理: X=(value-value_min) / (value_max-value_min) 函数:mapminmax(A,M),A—需要处理的矩阵,M—需要映射到的范围,M通默认为[-1,1],也可设置为常用的0和1之间。 结果: 2、标准化:将数据映射到方差为1,均值为0的数据。

    2024年04月13日
    浏览(35)
  • 【Pytorch基础知识】数据的归一化和反归一化

    一张正常的图,或者说是人眼习惯的图是这样的: 但是,为了 神经网络更快收敛 ,我们在深度学习网络过程中 通常需要将读取的图片转为tensor并归一化 (此处的归一化指 transforms .Normalize()操作)输入到网络中进行系列操作。 如果将转成的tensor再直接转为图片,就会变成下

    2023年04月09日
    浏览(82)
  • 深度学习基础入门篇[七]:常用归一化算法、层次归一化算法、归一化和标准化区别于联系、应用案例场景分析。

    【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、

    2024年02月13日
    浏览(45)
  • 机器学习(8)---数据预处理

     1. 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。 譬如梯度和矩阵为核心的算法中,譬如逻辑回归,支持向量机,神经网络,无量纲化可以加快求解速度. 而在

    2024年02月09日
    浏览(39)
  • 机器学习实战4-数据预处理

    导库 归一化 另一种写法 将归一化的结果逆转 用numpy实现归一化 逆转 导库 实例化 查看属性 查看结果 逆标准化 关于如何选择这两种无量纲化的方式要具体问题具体分析,但是我们一般在机器学习算法中选择标准化,这就好比我们能让他符合标准正态分布为什么不呢?而且

    2024年02月13日
    浏览(43)
  • 【机器学习6】数据预处理(三)——处理类别数据(有序数据和标称数据)

    在【机器学习4】构建良好的训练数据集——数据预处理(一)处理缺失值及异常值这一篇文章中,主要说明热数据预处理的重要性以及如何处理缺失值及异常值这些数值特征。然而,在现实生活中遇到的数据集往往不仅仅只会包含 数值型特征 ,还会包含一个或者多个 类别特征

    2024年02月12日
    浏览(43)
  • 【Python机器学习】SVM——预处理数据

    为了解决特征特征数量级差异过大,导致的模型过拟合问题,有一种方法就是对每个特征进行缩放,使其大致处于同一范围。核SVM常用的缩放方法是将所有的特征缩放到0和1之间。 “人工”处理方法: 可以看到,最终的结果上训练集和测试集的精度都非常好,但还没有接近

    2024年01月17日
    浏览(40)
  • 机器学习流程—数据预处理 缩放和转换

    相信机器学习的从业者,一定听到到过“特征缩放”这个术语,它被认为是数据处理周期中不可跳过的部分,因进行相应的操作们可以实现 ML 算法的稳定和快速训练。在本文中,我们将了解在实践中用于执行特征缩放的不同技术。 不同评价指标往往具有不同的 量纲 和量纲单

    2024年03月11日
    浏览(49)
  • 《人工智能-机器学习》数据预处理和机器学习算法(以企鹅penguins数据集为例)

    本项目使用到的数据集链接: https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv 加载给定或者自行选定的数据集,对数据进行查看和理解,例如样本数量,各特征数据类型、分布、特征和标签所表达的含义等,然后对其进行数据预处理工作,包括但不限于对敏感数据

    2024年02月10日
    浏览(57)
  • 数据预处理与模型评估【机器学习、人工智能、实际事例】

    在机器学习领域,数据预处理和模型评估是两个至关重要的步骤。它们确保我们构建的机器学习模型能够从数据中有效地学习并做出准确的预测。本文将详细介绍数据预处理和模型评估的概念,并通过现实中的例子来阐述它们之间的密切关系。 什么是数据预处理? 数据预处

    2024年02月07日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包