【大厂AI课学习笔记】【2.2机器学习开发任务实例】(4)制作数据集

这篇具有很好参考价值的文章主要介绍了【大厂AI课学习笔记】【2.2机器学习开发任务实例】(4)制作数据集。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

要划分训练集和测试集。

训练集也要分为训练集和验证集。

延伸学习:


1. 数据集的划分比例

  • 训练集:通常占据整个数据集的60%-80%,用于训练模型。
  • 验证集:约占10%-20%,用于在训练过程中调整模型参数和超参数,以及进行早期停止训练等操作,防止过拟合。
  • 测试集:约占10%-20%,用于评估模型的最终性能。测试集在整个训练过程中应保持未知状态,直到模型训练完成。

2. 随机划分与分层划分

  • 随机划分:如果数据集中的类别分布相对均匀,可以使用随机划分来确保每个子集中的数据分布与原始数据集相似。
  • 分层划分:如果数据集存在类别不平衡问题,应采用分层划分,确保每个子集中的类别比例与原始数据集一致。

3. 数据集的代表性

  • 确保每个子集中的数据都具有代表性,能够反映整体数据的分布特点。
  • 如果数据存在时序性或其他依赖关系,应确保划分后的子集保持这种关系。

4. 避免数据泄露

  • 在划分数据集之前,不应进行任何可能影响数据分布的预处理操作。
  • 确保测试集在模型训练和验证过程中始终保持未知状态,以避免信息泄露和过拟合。

5. 多次划分与交叉验证

  • 为了获得更可靠的模型性能评估,可以多次划分数据集并训练模型,然后取平均性能作为最终结果。
  • 交叉验证(如k-折交叉验证)是一种有效的方法,它通过将数据集划分为k个子集并轮流用作测试集来评估模型性能。

6. 考虑数据的动态变化

  • 如果数据是随时间变化的(如时间序列数据),应确保训练集包含较早时期的数据,而测试集包含较晚时期的数据,以评估模型对未知数据的泛化能力。

7. 数据集的均衡性

  • 对于类别不平衡的数据集,可以采用过采样少数类别或欠采样多数类别的方法来平衡数据集。但在划分训练集、验证集和测试集时,仍应保持相同的类别比例。

遵循这些规则和最佳实践可以确保机器学习模型在训练、验证和测试过程中获得可靠且有意义的结果。作为人工智能专家,理解并能够根据具体任务和数据特性灵活应用这些规则是至关重要的。文章来源地址https://www.toymoban.com/news/detail-836137.html

到了这里,关于【大厂AI课学习笔记】【2.2机器学习开发任务实例】(4)制作数据集的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大厂AI课学习笔记】【2.2机器学习开发任务实例】(3)数据准备和数据预处理

    项目开始,首先要进行数据准备和数据预处理。 数据准备的核心是找到这些数据,观察数据的问题。 数据预处理就是去掉脏数据。 缺失值的处理,格式转换等。 延伸学习: 在人工智能(AI)的众多工作流程中,数据准备与预处理占据着举足轻重的地位。这两个步骤不仅影响

    2024年02月19日
    浏览(47)
  • 【大厂AI课学习笔记NO.51】2.3深度学习开发任务实例(4)计算机视觉实际应用的特点

    今天考试通过腾讯云人工智能从业者TCA级别的认证了! 还是很开心的,也看不到什么更好的方向,把一切能利用的时间用来学习,总是对的。 我把自己考试通过的学习笔记,都分享到这里了,另外还有一个比较全的思维脑图,我导出为JPG文件了。下载地址在这里:https://do

    2024年03月14日
    浏览(46)
  • 【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(7)特征工程的基本方法

    今天来学习特征工程的基本方法。 基本方法包括:特征选择(Feature Selection)、特征提取(Feature Extraction)和特征构建(Feature Construction)。 从给定的特征集合中选出相关特征子集的过程。 去除无关特征,降低特征学习难度,让模型简单,降低计算复杂度。 抛弃这部分特征

    2024年02月22日
    浏览(48)
  • 【大厂AI课学习笔记NO.72】AI与云计算

    AI项目依靠云计算,借助云的力量,快速的启动业务,是比较好的一种选择。 AI模型训练过程中,出现算力突增,云计算成本低。 云平台提供一站式解决方案,创业公司的选择。     云端AI和边缘端的AI,是我们一直要取舍的问题。智能数据分析任务,模型训练任务,带宽要

    2024年03月11日
    浏览(48)
  • 简易机器学习笔记(十一)opencv 简易使用-人脸识别、分类任务

    前段时间摸了下机器学习,然后我发现其实openCV还是一个很浩瀚的库的,现在也正在写一篇有关yolo的博客,不过感觉理论偏多,所以在学yolo之前先摸一下opencv,简单先写个项目感受感受opencv。 openCV实际上已经有一个比较完整的模型了,下载在haarcascades 这里我们下haarcascade

    2024年01月21日
    浏览(50)
  • 【机器学习合集】人脸表情分类任务Pytorch实现&TensorBoardX的使用 ->(个人学习记录笔记)

    注意:整个项目来自阿里云天池,下面是开发人员的联系方式,本人仅作为学习记录!!! 该文章原因,学习该项目,完善注释内容,针对新版本的Pytorch进行部分代码调整 本文章采用pytorch2.0.1版本,python3.10版本 源码链接 1. 网络结构 2. 训练函数 部分代码内容与作者不同

    2024年02月08日
    浏览(45)
  • 机器学习笔记之狄利克雷过程(五)——基于狄利克雷过程的预测任务

    上一节从概率图结构的角度介绍了 狄利克雷过程 ,本节将介绍狄利克雷过程的预测任务。 从概率图的角度/样本 X mathcal X X 的 生成过程 观察,从狄利克雷过程 DP [ α , H ( θ ) ] text{DP}[alpha,mathcal H(theta)] DP [ α , H ( θ )] 中采样得到一个离散的 随机测度 G mathcal G G : G ∼ D

    2024年02月09日
    浏览(49)
  • 李宏毅2023春季机器学习笔记 - 01生成AI(ChatGPT)

    预设的知识储备要求:数学(微积分、线性代数、机率);编程能力(读写python) 这门课专注在 深度学习领域deep learning, 事实上深度学习在今天的整个机器学习(ML)的领域使用非常广泛,可以说是最受重视的一项ML技术。 这门课可以作为你的机器学习的第一堂课,修完后

    2023年04月19日
    浏览(56)
  • 读AI3.0笔记05_人类与机器学习

    1.11.2.1. 即使是训练深度网络的人通常也无法理解其背后隐藏的原理,并为网络做出的决策提供解释 4.1.1.1. 这一长串可能性低,但却可能发生的情况被称为该分布的“尾巴”,尾巴上的情况有时被称为“边缘情况” 4.1.2.1. 在高速公路的中央遇到一个雪人,则是更加不常见的

    2024年01月24日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包