【scikit-learn基础】--『预处理』之 标准化

这篇具有很好参考价值的文章主要介绍了【scikit-learn基础】--『预处理』之 标准化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的标准化处理,可以消除数据之间的差异,使不同特征的数据具有相同的尺度,
以便于后续的数据分析和建模。

1. 原理

数据标准化的过程如下:

  1. 计算数据列的算术平均值mean
  2. 计算数据列的标准差sd
  3. 标准化处理:\(new\_data = (data - mean) / sd\)

data 是原始数据,new_data 是标准化之后的数据。

根据原理,实现的对一维数据标准化的示例如下:

import numpy as np

# 标准化的实现原理
data = np.array([1, 2, 3, 4, 5])
mean = np.mean(data)  # 平均值
sd = np.std(data)   # 标准差

# 标准化
data_new = (data-mean)/sd

print("处理前: {}".format(data))
print("处理后: {}".format(data_new))

# 运行结果
处理前: [1 2 3 4 5]
处理后: [-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

使用scikit-learn库中的标准化函数scale,得到的结果也和上面一样。

from sklearn import preprocessing as pp

data = np.array([1, 2, 3, 4, 5])
pp.scale(data)

# 运行结果
array([-1.41421356, -0.70710678,  0.        ,  0.70710678,  1.41421356])

scikit-learn库中的标准化函数scale不仅可以处理一维的数据,也可以处理多维的数据。

2. 作用

标准化处理的作用主要有:

2.1. 消除数据量级的影响

数据分析时,不一样量级的数据放在一起分析会增加很多不必要的麻烦,比如下面三组数据:

data_min = np.array([0.001, 0.002, 0.003, 0.004, 0.005])
data = np.array([1, 2, 3, 4, 5])
data_max = np.array([10000, 20000, 30000, 40000, 50000])

三组数据看似差距很大,但是标准化处理之后:

from sklearn import preprocessing as pp

print("data_min 标准化:{}".format(pp.scale(data_min)))
print("data     标准化:{}".format(pp.scale(data)))
print("data_max 标准化:{}".format(pp.scale(data_max)))

# 运行结果
data_min 标准化:[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
data     标准化:[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
data_max 标准化:[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

标准化处理之后,发现三组数据其实是一样的。
将数据转化为相同的尺度,使得不同变量之间的比较更加方便和有意义,避免对分析结果产生误导。

2.2. 增强可视化效果

此外,标准化之后的数据可视化效果也会更好。
比如下面一个对比学生们数学和英语成绩的折线图:

math_scores = np.random.randint(0, 150, 10)
english_scores = np.random.randint(0, 100, 10)

fig, ax = plt.subplots(2, 1)
fig.subplots_adjust(hspace=0.4)
ax[0].plot(range(1, 11), math_scores, label="math")
ax[0].plot(range(1, 11), english_scores, label="english")
ax[0].set_ylim(0, 150)
ax[0].set_title("标准化之前")
ax[0].legend()

ax[1].plot(range(1, 11), pp.scale(math_scores), label="math")
ax[1].plot(range(1, 11), pp.scale(english_scores), label="english")
ax[1].set_title("标准化之后")
ax[1].legend()

plt.show()

随机生成10数学英语的成绩,数学成绩的范围是0~150,英语成绩的范围是0~100

标准化前后的折线图对比如下:
【scikit-learn基础】--『预处理』之 标准化
标准化之前的对比,似乎数学成绩要比英语成绩好。
而从标准化之后的曲线图来看,其实两门成绩是差不多的。

这就是标准化的作用,使得可视化结果更加准确和有意义。

2.3. 机器学习的需要

许多机器学习算法对输入数据的规模和量纲非常敏感。
如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能。

标准化处理可以将所有特征的数据转化为相同的尺度,从而避免这种情况的发生,提高算法的准确性和性能。

3. 总结

总的来说,数据标准化处理是数据处理中不可或缺的一步,它可以帮助我们消除数据之间的差异,提高分析结果的性能和稳定性,增加数据的可解释性,从而提高我们的决策能力。文章来源地址https://www.toymoban.com/news/detail-753124.html

到了这里,关于【scikit-learn基础】--『预处理』之 标准化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解机器学习——数据预处理:归一化 (Normalization)与标准化 (Standardization)

    分类目录:《深入理解机器学习》总目录 归一化 (Normalization)和标准化 (Standardization)都是特征缩放的方法。特征缩放是机器学习预处理数据中最重要的步骤之一,可以加快梯度下降,也可以消除不同量纲之间的差异并提升模型精度。 归一化(Normalization)是将一组数据变

    2024年02月08日
    浏览(45)
  • 【scikit-learn基础】--概述

    Scikit-learn 是一个基于 Python 的开源机器学习库,它提供了大量的机器学习算法和工具,方便用户进行数据挖掘、分析和预测。 Scikit-learn 是基于另外两个知名的库 Scipy 和 Numpy 的, 关于 Scipy 和 Numpy 等库,之前的系列文章中有介绍: Scipy 基础系列 Numpy 基础系列 自从 AlphaGo 再度

    2024年02月05日
    浏览(41)
  • 【scikit-learn基础】--『回归模型评估』之偏差分析

    模型评估 在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。 本篇主要介绍 模型评估 时,如何利用 scikit-learn 帮助我们快速进行各种 偏差 的分析。 R² 分数 (也叫 决定系数 ),用于衡量模型预测的拟合优度,它表示模型中 因变量 的

    2024年01月24日
    浏览(46)
  • 【scikit-learn基础】--『回归模型评估』之误差分析

    模型评估 在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。 在这个数据充斥的时代,没有评估的模型就如同盲人摸象,可能带来误导和误判。 模型评估 不仅是一种方法,更是一种保障,确保我们在数据海洋中航行时,能够依赖准确的

    2024年01月22日
    浏览(45)
  • 【scikit-learn基础】--『数据加载』之外部数据集

    这是 scikit-learn 数据加载系列的最后一篇,本篇介绍如何加载 外部的数据集 。 外部数据集 不像之前介绍的几种类型的数据集那样,针对每种数据提供对应的接口,每个接口加载的数据都是固定的。 而外部数据集加载之后,数据的字段和类型是不确定的。 简单来说,我们在

    2024年02月05日
    浏览(46)
  • 【scikit-learn基础】--『数据加载』之真实数据集

    上一篇介绍了 scikit-learn 中的几个玩具数据集,本篇介绍 scikit-learn 提供的一些真实的数据集。 玩具数据集:scikit-learn 基础(01)--『数据加载』之玩具数据集 与玩具数据集不同,真实的数据集的数据不仅数据特征多,而且数据量也比较大, 所以没有直接包含在 scikit-learn 库中。

    2024年02月05日
    浏览(41)
  • 【scikit-learn基础】--『数据加载』之玩具数据集

    机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解。 不管是在学习还是实际工作中, 准备数据 永远是一个枯燥乏味的步骤。 scikit-learn 库显然看到了这个痛点,才在它的 数据加载 子模块中为我们准备了直接可用的数据集。 在它的 数据加载 子模

    2024年02月05日
    浏览(60)
  • 【scikit-learn基础】--『数据加载』之样本生成器

    除了内置的数据集, scikit-learn 还提供了随机样本的生成器。 通过这些生成器函数,可以生成具有特定特性和分布的随机数据集,以帮助进行机器学习算法的研究、测试和比较。 目前, scikit-learn 库( v1.3.0 版)中有 20个 不同的生成样本的函数。 本篇重点介绍其中几个具有代

    2024年02月05日
    浏览(46)
  • 机器学习-决策树-回归-CPU(中央处理单元)数据-python scikit-learn

    决策树是一种监督机器学习算法,用于回归和分类任务。树是可以处理复杂数据集的强大算法。 决策树特性: 不需要数值输入数据进行缩放。无论数值是多少,决策树都不在乎。 不同于其他复杂的学习算法,决策树的结果是可以解释的,决策树不是黑盒类型的模型。 虽然大

    2024年02月20日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包