python三种数据标准化

这篇具有很好参考价值的文章主要介绍了python三种数据标准化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据变换是数据准备的重要环节,它通过数据平滑数据聚集数据概化规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法:
1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
2.数据聚集:对数据进行汇总,在SQL中有一些聚集函数可以供我们操作(比如Max)反馈某个字段的数值最大值,Sum返回某个字段的数值总和;
3.数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4.数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等;
5.属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和“这个属性,来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。
在这些变换方法中,最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。

1、Min-max 归一化

Min-max规范化方法是将原始数据变换到[0,1]的空间中。用公式表示就是:
新数值=(原数值-极小值)/(极大值-极小值)。

2、Z-Score标准化

我们定义:新数值=(原数值一均值)/标准差。

3、小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。
举个例子,比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。那么A的取值范围就被规范化为-0.999到0.088。

Python的SciKit-Learn库使用
1、Min-max 规范化

from sklearn import preprocessing 
import numpy as np
#初始化数据,每一行表示一个样本,每一列表示一个特征
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#将数据进行[0,1]规范化
min_max_scaler=preprocessing.MinMaxScaler()
minmax_x=min_max_scaler.fit_transform(x)
print (minmax_x)

2、Z-Score规范化

from sklearn import preprocessing 
import numpy as np
#初始化数据
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#将数据进行Z-Score规范化
scaled_x=preprocessing.scale(x)
print (scaled_x)

3、小数定标规范化

from sklearn import preprocessing 
import numpy as np
#初始化数据
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#小数定标规范化
j=np.ceil(np.log10(np.max(abs(x)))
scaled_x=X/(10**j)
print (scaled_x)

4、归一化和标准化的区别和联系

区别:
归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内,仅由变量的极值决定,因此区间放缩法是归一化的一种。
标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。
归一化会改变数据的原始距离,分布,信息;
标准化一般不会。

联系:
它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。

5、使用情形:

什么时候用归一化?什么时候用标准化?
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

6、哪些模型必须归一化/标准化?

①SVM ②KNN ③神经网络 ④PCA等文章来源地址https://www.toymoban.com/news/detail-726975.html

到了这里,关于python三种数据标准化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python实现z-score标准化和0-1标准化

    目录 标准化处理 0-1标准化: z-score标准化: 1、用自带的函数来操作 实现z-score标准化 实现0-1标准化 2、自定义函数实现 实现z-score标准化 实现0-1标准化 对输出结果范围有要求,数据较为稳定的,不存在极端的最大最小值 数据存在异常值和较多的噪音,可以间接通过中心化避

    2024年02月11日
    浏览(44)
  • 不要再搞混标准化与归一化啦,数据标准化与数据归一化的区别!!

    数据的标准化是将数据按照一定的 数学规则进行转换 ,使得数据满足特定的标准,通常是使数据满足正态分布或标准差为1的标准。 标准化的常见方法包括 最小-最大标准化 和 Z-score标准化 。最小-最大标准化将数据映射到 [0,1 ]的范围内,最小-最大标准化将数据映射到0-1区间

    2024年01月21日
    浏览(56)
  • 数据标准化方法

    今天看到了“指数移动平均窗口标准化”,就研究了一下这是个啥东西,然后又顺便看了一下其他的数据标准化方法,这里顺便记录一下,方便以后查阅。 zscore标准化是一种 基于数据分布的标准化方法 。它的基本思想是 将数据转换为均值为0,标准差为1的分布 ,从而使得数

    2023年04月22日
    浏览(51)
  • 蔡春久:主数据标准化如何建设

    亿信华辰「2023数字赋能季」主数据管理专场第一期成功举办。我们邀请到了中国数据标准化及治理专家蔡春久为大家带来主数据管理从理论到工具层面的分享,全程干货,深度解读,以下是演讲全文。 蔡春久:中国大数据技术标准推进委员会数据资产专家、中电标协企业信

    2023年04月25日
    浏览(51)
  • 用UiPath实现网页抓取——表格数据提取-1-单击选择分类-ISO标准化-01-综合、术语、标准化、文献目录获取

    准备获取目录的链接是 全国标准信息公告服务平台链接: https://std.samr.gov.cn/search/iso?tid=q= 第一步,标注啊类型选择——ISO 第二步,标准化状态选择——现行 第三步,ICS分类选择——01_综合、术语标准化、文献 将数据分别复制到excel文件中,如下图。 由于国际标准分类号在

    2024年02月04日
    浏览(56)
  • 数据标准化与归一化 及其区别

      数据一般都是有单位的,比如身高的单位有米、厘米等。需要对此类数值型特征进行 无量纲化处理 ,即是使不同规格的 数据转换到同一规格 。常见的无量纲化方法有 标准化 和 归一化 。 主要参考:机器学习算法:特征工程 某些算法要求样本具有0均值和1方差,即 需要

    2024年02月09日
    浏览(43)
  • 干货 | 大数据交易所数据安全流通体系标准化尝试

    以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。 第一部分:国内大数据交易所发展现状 第二部分:国外大数据交易模式及法律法规 欧盟的数据交易模式是基于2022年5月16日所提出的《数据治理法案》,其中提出了 数据中介 这一新的商业

    2024年02月17日
    浏览(55)
  • Fabarta 正式加入大数据技术标准推进委员会,共同推动大数据技术标准化进程

    近日,中国通信标准化协会大数据技术标准推进委员会(以下简称“CCSA TC601”)在杭州召开了 2023 年度第一次全体工作会议。本次会议为期两天,共有来自各成员单位的 230 余位专家、代表参会。本次会议上 Fabarta 作为新成员单位之一,由产品总监陈振代表公司进行了介绍发

    2024年02月02日
    浏览(51)
  • 文本的清洗和标准化:如何处理混乱的数据?

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由文心一格生成) 在现代社会,我们每天都处理大量的文本数据。

    2024年02月03日
    浏览(45)
  • 数据标准化在人工智能与大数据领域的应用

    数据标准化是指将数据集中的数据进行规范化处理,使其具有统一的格式和规则,从而使得数据更容易进行分析和处理。在人工智能和大数据领域,数据标准化的重要性不言而喻。随着数据的规模和复杂性不断增加,如何有效地处理和分析数据成为了一大挑战。数据标准化可

    2024年02月21日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包