数据无量纲化 学习(2):数据缩放(数据标准化 / 数据无量纲化 )的作用、适用场景、具体方法

这篇具有很好参考价值的文章主要介绍了数据无量纲化 学习(2):数据缩放(数据标准化 / 数据无量纲化 )的作用、适用场景、具体方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、数据无量纲化

将不同规格的数据转换到同一规格,或将不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。

  • 在以梯度和矩阵为核心的算法中,譬如逻辑回归,支持向量机,神经网络,无量纲化可以加快求解速度;
  • 在距离类模型,譬如K近邻,KMeans聚类中,无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。
  • 一个特例是决策树和树的集成算法们,对决策树、不需要无量纲化,决策树可以把任意数据都处理得很好。

数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Mean-subtraction)处理和缩放处理(Scale)。

  • 中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。
  • 缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。

二、数据无量纲化的作用

  • 提升模型精度:标准化 / 归一化使不同维度的特征在数值上更具比较性,提高分类器的准确性。
  • 提升收敛速度:对于线性模型,数据归一化使梯度下降过程更加平缓,更易正确的收敛到最优解。

三、各种数据无量纲化的适用场景

1.哪些算法需要无量纲化

  • 涉及或隐含距离计算的算法,比如K-means、KNN、PCA、SVM等,一般需要进行无量纲化。
  • 梯度下降算法,梯度下降的收敛速度取决于:参数的初始位置到local minima的距离,以及学习率η的大小,其实还是距离的计算。
  • 采用sigmoid等有饱和区的激活函数,如果输入分布范围很广,参数初始化时没有适配好,很容易直接陷入饱和区,导致梯度消失,所以才会出现各种BN,LN等算法。

2.哪些算法不需要无量纲化

  • 与距离计算无关的概率模型不需要,比如Naive Bayes;
  • 与距离计算无关的基于树的模型,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关。其实无量纲化的作用就是由绝对变为了相对,所以可以说无量纲化对于树型模型不那么重要,是一个可选项或者说可以作为一个超参数在训练时进行选择。

四、线性变换方法

1.去中心化MeanScaler

每列数据减去其均值。

from sklearn.preprocessing import Normalizer
import numpy as np

X_train = np.array([[130, 20., 20],
                    [80, 50., 96],
                    [90, 60., 88]])

def MeanScaler(X):
    X = X.copy()
    new_X = X - X.mean(axis=0)
    return new_X


X_scaled = MeanScaler(X_train)

print("StandardScaler缩放结果为:", X_scaled)
print("*" * 30)
print("均值为:", X_scaled.mean(axis=0))
print("标准差为:", X_scaled.std(axis=0))

2. 极差标准化 / 归一化 MinMaxScaler

该方法是线性无量纲化,区间缩放,基于最大最小值,将数据转换到0,1区间上。

from sklearn.preprocessing import MinMaxScaler
  • 处理方法:将特征缩放到给定的最小值和最大值之间,也可以将每个特征的最大绝对值转换至单位大小。这种方法是对原始数据的线性变换,将数据归一到[0,1]中间;
  • 转换函数:x = (x-min) / (max-min);
  • 适用性:适用于分布范围较稳定的数据,当新数据的加入导致max/min变化,则需重新定义;
  • Outlier 的影响:因为outlier会影响最大值或最小值,因此对outlier非常敏感。

(1)参数包括:min, max, copy

  • min:默认为0,指定区间的下限;
  • max:默认为1,指定区间的上限;
  • copy : 布尔值,默认为True,可选参数,表示拷贝一份数据以避免在原数据上进行操作,若设置为 False执行插入行规范化并避免复制。

(2)属性包括:min_, scale_, data_min_, data_max_文章来源地址https://www.toymoban.com/news/detail-400566.html

  • min_:每个功能调整为最小;
  • scale_:每个特征数据的相对缩放;
  • data_min_:每个特征在数据中出现的最小值;
  • data_max_:每个特征在数据中心出现的最大值。
from sklearn.preprocessing import StandardScaler,MinMaxScaler
import numpy as np

X_train = np.array([[130, 20., 20

到了这里,关于数据无量纲化 学习(2):数据缩放(数据标准化 / 数据无量纲化 )的作用、适用场景、具体方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python三种数据标准化

    数据变换是数据准备的重要环节,它通过 数据平滑 、 数据聚集 、 数据概化 和 规范化 等方式将数据转换成适用于数据挖掘的形式。常见的变换方法: 1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑 2.数据聚集:对

    2024年02月07日
    浏览(53)
  • 蔡春久:主数据标准化如何建设

    亿信华辰「2023数字赋能季」主数据管理专场第一期成功举办。我们邀请到了中国数据标准化及治理专家蔡春久为大家带来主数据管理从理论到工具层面的分享,全程干货,深度解读,以下是演讲全文。 蔡春久:中国大数据技术标准推进委员会数据资产专家、中电标协企业信

    2023年04月25日
    浏览(51)
  • 【机器学习】一文搞懂标准化,归一化,正则化

    对于机器学习中的标准化,归一化和正则化的理解,一直都比较模糊,而且在许多技术书籍中,对于它们的使用基本都是一笔带过,不理解概念的话,就不知具体对数据做了哪些操作。因此,在这里专门对这几个概念做学习与总结。 学习之前,先抛出几个问题: 这几个概念

    2024年02月03日
    浏览(50)
  • MATLAB学习记录:标准化制图/图标/字号/字体/label

    1、使用matlab绘图指令 plot为绘图指令,其中第一个变量为x轴,第二个变量为y轴,若要在一张图上绘制多个图案,则需要使用hold on命令,然后执行下一个画图命令。 2、打开help文件查看指令的命令 以上即为查看plot指令的用法 3、标准化绘图

    2024年02月16日
    浏览(35)
  • 用UiPath实现网页抓取——表格数据提取-1-单击选择分类-ISO标准化-01-综合、术语、标准化、文献目录获取

    准备获取目录的链接是 全国标准信息公告服务平台链接: https://std.samr.gov.cn/search/iso?tid=q= 第一步,标注啊类型选择——ISO 第二步,标准化状态选择——现行 第三步,ICS分类选择——01_综合、术语标准化、文献 将数据分别复制到excel文件中,如下图。 由于国际标准分类号在

    2024年02月04日
    浏览(56)
  • 数据标准化与归一化 及其区别

      数据一般都是有单位的,比如身高的单位有米、厘米等。需要对此类数值型特征进行 无量纲化处理 ,即是使不同规格的 数据转换到同一规格 。常见的无量纲化方法有 标准化 和 归一化 。 主要参考:机器学习算法:特征工程 某些算法要求样本具有0均值和1方差,即 需要

    2024年02月09日
    浏览(43)
  • 干货 | 大数据交易所数据安全流通体系标准化尝试

    以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。 第一部分:国内大数据交易所发展现状 第二部分:国外大数据交易模式及法律法规 欧盟的数据交易模式是基于2022年5月16日所提出的《数据治理法案》,其中提出了 数据中介 这一新的商业

    2024年02月17日
    浏览(55)
  • Fabarta 正式加入大数据技术标准推进委员会,共同推动大数据技术标准化进程

    近日,中国通信标准化协会大数据技术标准推进委员会(以下简称“CCSA TC601”)在杭州召开了 2023 年度第一次全体工作会议。本次会议为期两天,共有来自各成员单位的 230 余位专家、代表参会。本次会议上 Fabarta 作为新成员单位之一,由产品总监陈振代表公司进行了介绍发

    2024年02月02日
    浏览(51)
  • 文本的清洗和标准化:如何处理混乱的数据?

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由文心一格生成) 在现代社会,我们每天都处理大量的文本数据。

    2024年02月03日
    浏览(46)
  • 数据标准化在人工智能与大数据领域的应用

    数据标准化是指将数据集中的数据进行规范化处理,使其具有统一的格式和规则,从而使得数据更容易进行分析和处理。在人工智能和大数据领域,数据标准化的重要性不言而喻。随着数据的规模和复杂性不断增加,如何有效地处理和分析数据成为了一大挑战。数据标准化可

    2024年02月21日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包