数学建模——数据预处理

这篇具有很好参考价值的文章主要介绍了数学建模——数据预处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在数学建模时,经常遇到数据的预处理,那么会有一些什么情况呢,跟着北海老师总结了他的内容~希望对大家有所帮助!

缺失值

  • 比赛提供的数据,发现有些单元格是null或空的
  • 缺失太多:例如调查人口信息,发现“年龄”这一项缺失了40%,就直接把该项指标删除
  • 最简单处理:均值、众数插补
  • 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
  • 定性数据,例如关于一群人的性别、文化程度: 某些事件调查的满意度,用出现次数最多的值补缺失。
  • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据
  • Newton插值法
  • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
  • 缺点:区间边缘处的不稳定震荡,即龙格现象。
  • 不适合对导数有要求的题目适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
  •  样条插值法
  • 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
  • 适用赛题:零件加工,水库水流量,图像“基线漂移”机器人轨迹等精度要求高、没有突变的数据

异常值

  • 样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的
  • 正态分布3o原则
  • 数值分布在 (u-3q,u+3a)中的概率为99.73%,其中川为平均值,为标准差求解步骤: 1.计算均值和标准差;2.判断每个数据值是否在(-3,u+3)内,不在则为异常值
  • 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
  • 不适用题目: 总体符合其他分布,例如公交站人数排队论符合泊松分布
  • 画箱型图:
  • 上四分位数Qx是排第75%的数值箱型图中,把数据从小到大排序。下四分位数Q1是排第25%的数值
  • 四分位距IQR = Q3- Q1,也就是排名第75%的减去第25%的数值
  • 与正态分布类似,设置个合理区间,在区间外的就是异常值
  • 一般设[Q1-1.5*IQR,Q3 +1.5*IQR]内为正常值
  • 适用题目:普通适用
  •  找到异常后,处理方法与处理缺失值相同

 文章来源地址https://www.toymoban.com/news/detail-430228.html

到了这里,关于数学建模——数据预处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据预处理方法整理(数学建模)

    这篇文章主要是整理了一些作者在各种建模比赛中遇到的数据预处理问题以及方法,主要针对excel或csv格式的数据,为后续进行机器学习或深度学习做前期准备 导入库和文件,这里使用的是绝对路径,可改为相对路径 传入的为csv格式的文件,如果是xlsx格式的文件,建议先使

    2024年02月14日
    浏览(54)
  • 数学建模Matlab之数据预处理方法

    本文综合代码来自文章 作者通常首先判断是否具有异常值,因为如果有异常值的话,咱们就会剔除异常值,使其变成缺失值,然后再做缺失值处理会好很多。 对于上面的异常值检验法做讲解与扩展: 1. Mean 三倍标准差法(3σ原则) 描述 :在正态分布数据中,任何一个数值如

    2024年02月08日
    浏览(47)
  • matlab数据的获取、预处理、统计、可视化、降维 | 《matlab数学建模方法与实践(第三版)》学习笔记

    一、数据的获取 1.1 从Excel中获取 使用readtable() 使用xlsread()——xlswrite() 1.2  从TXT中获取 使用load() 使用textread() 使用fopen() fread() fclose()  使用fprintf()写入信息到txt  1.3 从图片中获取 使用imread  1.4 从视频获取  使用视觉工具箱中的VideoFileReader  二、数据的预处理 2.1 缺失值处

    2024年01月19日
    浏览(67)
  • 2023高教社数学建模国赛C题 - 蔬菜类商品的自动定价与补货决策(数据预处理部分)附详细代码

    C题用到了vlookup函数将所有数据同类项进行合并,公式如下: 单品类:=VLOOKUP(C2,[附件1.xlsx]Sheet1!A$2:D$252,2,FALSE) 大类: =VLOOKUP(C2,[附件1.xlsx]Sheet1!A$2:D$252,4,FALSE) 批发价格: =VLOOKUP(C2,[附件3.xlsx]Sheet1!B$2:C$55983,2,FALSE) 单品损耗率: =VLOOKUP(H2,[附件4.xlsx]Sheet1!B$2:CS252,2,FALSE) 价格=单位成本

    2024年02月08日
    浏览(51)
  • 数学建模-数据的处理

    缺失值处理 删除法:删除小部分 插补法: a. 均值插补:定距用平均值、非定距用众数。 b. 回归插补。 c.极大似然估计(ML):观测数据的边际分布对未知参数进行极 大似然估计。也可以通过期望最大化来参数估计。有效样本的数量足够保证ML估计值是渐进无偏的并服从正态分

    2024年02月11日
    浏览(43)
  • 【数学建模+数据处理类】2021数学建模国赛B题 乙醇偶合制备C4烯烃

    对附件1中每种催化剂组合,分别研究乙醇转化率、C4烯烃的选择性与温度的关系,并对附件2中350度时给定的催化剂组合在一次实验不同时间的测试结果进行分析。 step1:对实验数据进行探索性分析 数据的预处理(A11的缺失) 可视化、数据关系展示 包括画出各个因变量(不同

    2024年02月16日
    浏览(43)
  • 【数学建模】数据处理与可视化

    两类基本对象 ndarray(N-dimensional Array Object):存储单一数据类型的多维数组 ufunc(Universal Funciton Object):对数组进行处理的通用函数 数组创建 向array函数传入列表/元组 利用arange、linspace、empty等函数生成数组 数组属性 数组元素索引 array数组和list列表的区别:list中的元素可以不

    2024年01月18日
    浏览(44)
  • 2023数学建模国赛E题黄河水沙监测数据分析完整代码分析+处理结果+思路文档

    已经写出国赛E题黄河水沙监测数据分析完整代码分析+处理结果+思路分析(30+页),包括数据预处理、数据可视化(分组数据分布图可视化、相关系数热力图可视化、散点图可视化)、回归模型(决策树回归模型、随机森林回归、GBDT回归、支持向量机回归、全连接神经网络)

    2024年02月09日
    浏览(50)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(64)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包