机器学习数据集----训练集、测试集以及验证集

9月前作者：努力学习的心子分类：Toy博客阅读(39) 违法举报

这篇具有很好参考价值的文章主要介绍了机器学习数据集----训练集、测试集以及验证集。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1、训练集

用来构建模型，通过训练拟合一些参数建立分类器。

2、验证集

用于确定网络结构以及调整模型的超参数。

使用验证集的目的就是为了快速调参（如网络层数、网络节点数、迭代次数等等），从而获得当前最优模型。

验证集是在训练集中划分出的一部分。

验证集不是必须要有的！

3、测试集

用来评估最终模型好坏。

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

4、是否需要划分验证集判断

4.1划分验证集

如果样本数量为万级以上，可以考虑划分为训练集（60%）、验证集（20%）、测试集（20%）；

如果样本数量达到百万级以上，验证集和测试集都留1W即可；

超参数越少或者容易调整，可以减少验证集比例，更多的分配给训练集。

4.2不需要划分验证集

如果样本数量少于1w，可以不用划分验证集，采用交叉验证训练优化选择模型。

5、交叉验证

5.1简单交叉验证

所谓简单是相对于其他交叉验证方法而言的。

随机将样本划分为训练集（70%）和测试集（30%），用训练集训练模型，用测试集验证模型及参数。接着再把样本打乱，重新选择训练集和测试集，继续训练模型和验证模型。最终选择损失函数评估最优模型和参数。

5.2 K折交叉验证

将样本随机划分为K个大小相同的互斥的子集，每次选K-1个作为训练集，剩的那个作为测试集。重复若干次（小于K）后，选择损失函数评估最优模型和参数。

这种方法评估结果的稳定性和保真性很大程度上取决于K的选择。

5.3留一交叉验证

是K折交叉验证的特例，适用于样本数量很少的情况。

该方法中，K等于样本数量N，每次选择N-1个样本进行训练，剩的1个样本进行测试。

5.4三种方法的选择

如果只是做个初步的模型建立，不是做深入分析的话，选择简单交叉验证，否则用K折交叉验证；在样本量少的情况下，使用留一交叉验证。

5.5交叉验证函数

cross_val_predict和cross_val_score都是交叉验证函数，区别主要是而这返回的评估结果不一样。

①、cross_val_predict：返回的是与样本数量个数一样的分类结果或者预测值。可以通过该预测输出与实际目标值做对比，准确定位到预测出错的地方，有利于参数优化和问题排查。输出的预测值可以用于计算PR曲线和ROC曲线。

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

其中，Ytrain为正确的标签，y_score为输出概率值，thresholds1为阈值，当 y_score>thresholds1时预测为正样本；当 y_score<thresholds1时预测为负样本。注意，输出的precision和recall最后一个值分别为1和0，并且没有对应的阈值。

②、cross_val_score：输出的是每一折的得分（准确率），K个得分取平均值就是模型的平均性能。最终输出的Accuracy可以由平均得分和95%置信区间共同得出。

cross_val_predict的输出结果不可以作为模型泛化性能参考；cross_val_score可以作为模型泛化性能的参考。

训练集测试集验证集,人工智能,深度学习

5.6置信区间

表示估计的准确度或精确度。

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

训练集测试集验证集,人工智能,深度学习

文章来源地址https://www.toymoban.com/news/detail-789065.html

到了这里，关于机器学习数据集----训练集、测试集以及验证集的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

模型训练：优化人工智能和机器学习，完善DevOps工具的使用

作者：JFrog大中华区总经理董任远据说法餐的秘诀在于黄油、黄油、更多的黄油。同样，对于DevOps而言，成功的三大秘诀是自动化、自动化、更高程度的自动化，而这一切归根结底都在于构建能够更快速地不断发布新版软件的流程。尽管人们认为在人工智能（AI）和机器学习

2024年02月10日
浏览(39)
【深度学习】如何分配训练集、验证集、测试集比例

对于传统机器学习阶段（数据集在万这个数量级），一般分配比例为训练集和测试集的比例为7:3或是8:2。为了进一步降低信息泄露同时更准确的反应模型的效能，更为常见的划分比例是训练集、验证集、测试的比例为6：2：2。对于小规模样本集（几万量级），常用的分配比例

2024年02月15日
浏览(42)
【验证码系列】Google验证码从数据训练到机器自动识别算法构建

2024年01月15日
浏览(41)
基于Dlib库+SVM+Tensorflow+PyQT5智能面相分析-机器学习算法应用（含全部工程源码）+训练及测试数据集

本项目利用了Dlib库的训练模型，以获取精确的面部特征。在人脸检测的过程中，它不仅能够准确地定位人脸，还能够确定出面部的68个关键点的准确坐标。借助这些关键点，我们可以提取丰富的面部特征。通过将这些面部特征应用于基于支持向量机（SVM）的分类方法，我们可

2024年02月13日
浏览(44)
【机器学习】验证集loss震荡（loss的其他问题）训练深度学习模型loss为nan的原因

训练过程中发现，train loss一直下降，train acc一直上升；但是val loss、val acc却一直震荡。loss一会上一会下，但是总体趋势是向下的。 “loss震荡但验证集准确率总体下降” 如何解决？测试集准确率这样震荡是正常的吗？ - 李峰的回答 - 知乎很多经验：loss问题汇总（不收敛、

2024年02月12日
浏览(43)
对yolov5的数据集进行划分【训练集、验证集、测试集】7：2:1和【训练集、验证集】8:2

目录训练集：验证集：测试集（7：2：1）训练集：验证集（8：2）参考的这位博主： (487条消息) YOLOv5数据集划分脚本(train、val、test)_yolov5 val_叱咤风云灬龙的博客-CSDN博客训练集：验证集：测试集（7：2：1）训练集：验证集（8：2）

2024年02月12日
浏览(40)
# 将数据集随机划分为训练集和验证集,测试集

2024年02月10日
浏览(33)
从人工智能到机器学习到深度学习、强化学习，以及相关的算法原理、应用场景等方面对人工智能技术的研究进行全面的综述

作者：禅与计算机程序设计艺术 2021年是一个重要的历史节点，数字化时代正在席卷全球各个角落。大数据、云计算、区块链等新兴技术带动着各行各业的变化与革命，机器学习（ML）、深度学习（DL）、强化学习（RL）等AI技术也越发成熟。随之而来的，伴随着人工智能应用的

2024年02月07日
浏览(73)
机器学习的测试和验证（Machine Learning 研习之五）

关于 Machine Learning 研习之三、四，可到秋码记录上浏览。测试和验证了解模型对新案例的推广效果的唯一方法是在新案例上进行实际尝试。一种方法是将模型投入生产并监控其性能。这很有效，但如果你的模型非常糟糕，你的用户会抱怨——这不是最好的主意。更好的选

2024年02月11日
浏览(44)
Java在物联网领域的应用非常广泛，涵盖了设备连接、数据处理、应用程序开发、安全性、嵌入式系统开发、消息队列和流处理、机器学习和人工智能以及跨平台和多语言集成等方面

Java作为一种通用编程语言，在物联网（IoT）领域的应用也非常广泛。以下是一些Java在物联网中的典型应用：开发物联网应用程序：Java是一种高级编程语言，具有丰富的库和工具，使得开发物联网应用程序变得容易。Java可以用于开发各种物联网应用程序，如智能家居、智能

2024年02月03日
浏览(72)