训练集和测试集的标准化中的坑！！！

10月前作者：西红柿vs鸡蛋分类：Toy博客阅读(32) 违法举报

这篇具有很好参考价值的文章主要介绍了训练集和测试集的标准化中的坑！！！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

问题：数据标准化，应该在训练集和测试集划分前还是后？

答：数据标准化，应该在训练集和测试集划分后，分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后，再进行划分。虽然从模型测试的结果看，可能出现的差距不大。

解释：当你手头已经有一份训练和测试数据。在真正的部署过程中，测试数据实际上就是那些源源不断刚刚出现的数据，你不知道它什么分布，也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差，去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集

代码：

from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项：

1.必须现在train上使用fit_transform，再在test数据集上使用transform

2. x_train = preprocessing.StandardScaler().fit_transform(x_train)
x_test = preprocessing.StandardScaler().transform(x_test)

会报错：

This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

解决办法：需要Standard = preprocessing.StandardScaler()，定义一个对象后，再进行标准化处理。文章来源地址https://www.toymoban.com/news/detail-404067.html

到了这里，关于训练集和测试集的标准化中的坑！！！的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

不要再搞混标准化与归一化啦，数据标准化与数据归一化的区别！！

数据的标准化是将数据按照一定的数学规则进行转换，使得数据满足特定的标准，通常是使数据满足正态分布或标准差为1的标准。标准化的常见方法包括最小-最大标准化和 Z-score标准化。最小-最大标准化将数据映射到 [0,1 ]的范围内，最小-最大标准化将数据映射到0-1区间

2024年01月21日
浏览(56)
数据标准化方法

今天看到了“指数移动平均窗口标准化”，就研究了一下这是个啥东西，然后又顺便看了一下其他的数据标准化方法，这里顺便记录一下，方便以后查阅。 zscore标准化是一种基于数据分布的标准化方法。它的基本思想是将数据转换为均值为0，标准差为1的分布，从而使得数

2023年04月22日
浏览(51)
GEE：影像标准化

本文将介绍在Google Earth Engine （GEE）平台上进行影像标准化的公式和代码。影像标准化是一种预处理方法，用于将不同区域、不同时间、不同传感器拍摄的影像进行比较和分析。在GEE平台上进行影像标准化，可以使用本文代码，本文以EVI为例，将影像进行了标准化处理。其结

2023年04月09日
浏览(62)
用UiPath实现网页抓取——表格数据提取-1-单击选择分类-ISO标准化-01-综合、术语、标准化、文献目录获取

准备获取目录的链接是全国标准信息公告服务平台链接: https://std.samr.gov.cn/search/iso?tid=q= 第一步，标注啊类型选择——ISO 第二步，标准化状态选择——现行第三步，ICS分类选择——01_综合、术语标准化、文献将数据分别复制到excel文件中，如下图。由于国际标准分类号在

2024年02月04日
浏览(56)
python三种数据标准化

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法： 1.数据平滑：去除数据中的噪声，将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑 2.数据聚集：对

2024年02月07日
浏览(53)
标准化归一化方法

分别是0-1标准化（Max-Min Normalization）和Z-Score标准化。 1.1 0-1标准化方法每一列中的元素减去当前列的最小值，再除以该列的极差。不过在深度学习领域，我们更希望输入模型的数据是Zero-Centered Data，此时 Z-Score标准化会更加合适。 1.2 Z-Score标准化 Z-Score标准化并不会将数据

2023年04月12日
浏览(45)
蔡春久：主数据标准化如何建设

亿信华辰「2023数字赋能季」主数据管理专场第一期成功举办。我们邀请到了中国数据标准化及治理专家蔡春久为大家带来主数据管理从理论到工具层面的分享，全程干货，深度解读，以下是演讲全文。蔡春久：中国大数据技术标准推进委员会数据资产专家、中电标协企业信

2023年04月25日
浏览(51)
标准化智慧工地主要包括哪些方面

迈道科技智慧工地管理系统的目的是以安全质量为切入口，结合软硬件实现对工地全方位的管理，实现安全、质量、进度、费用、人员的结合。智慧工地的特点是集约化管理、精细化管理、实现设备联动，管理协调，数据共享；发挥大数据在数据分析、人员、进度管理方面

2024年02月07日
浏览(56)
矩阵标准化处理(内附MATLAB代码）

文章目录矩阵指标标准化处理 1.原理 2.代码实现 2.1正向指标标准化 2.2负向指标标准化 3.运行结果 3.1 工作区变量 3.2 矩阵R标准化结果 4.总结 2.1正向指标标准化 2.2负向指标标准化 3.1 工作区变量 3.2 矩阵R标准化结果文章实现了矩阵正向指标（负向指标）标准化处理，内

2024年02月11日
浏览(54)
go的标准化error处理

优化前：我们可以看到有4个地方都需要进行错误判断，我们可以想办法将所有的错误处理代码写到别的地方，进行调用即可。优化后：

2024年04月15日
浏览(42)