数学建模:数据的预处理

这篇具有很好参考价值的文章主要介绍了数学建模:数据的预处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

🔆 文章首发于我的个人博客:欢迎大佬们来逛逛

数据预处理

数学建模:数据的预处理,数学建模,MATLAB,数学建模

数据变换

常见的数据变换的方式:通过某些简单的函数进行数据变换。

x ′ = x 2 x ′ = x x ′ = log ⁡ ( x ) ∇ f ( x k ) = f ( x k + 1 ) − f ( x k ) \begin{aligned}&x^{\prime}=x^2 \\&\begin{aligned}x^{\prime}=\sqrt{x}\end{aligned} \\&x'=\log(x) \\\nabla f\left(x_{k})\right.&=f(x_{k+1})-f(x_k) \end{aligned} f(xk)x=x2x=x x=log(x)=f(xk+1)f(xk)

  • 数据指标的一致化处理:
    • 极小型
    • 极大型
    • 中间型
    • 区间型
  • 数据指标的无量纲化处理:
    • 零 - 均值规范化:也叫做标准差规范化,经过处理后的数据平均值为 0,标准差为1。 x ‾ \overline x x 为原数据的均值, σ \sigma σ 为标准差。

      x ∗ = x − x ‾ σ x^*=\frac{x-\overline{x}}\sigma x=σxx

    • 极值差法:又叫最小 - 最大规范化,离差标准化,将数据映射到 [ 0 , 1 ] [0,1] [0,1] 之间。

      x ∗ = x − m i n m a x − m i n x^*=\frac{x-min}{max-min} x=maxminxmin

    • 功效系数法:就是上一步极值差法然后加了一个偏移量 c c c ,使得最后结果落于 [ c , c + n ] [c,c+n] [c,c+n]

数据变换的应用方式:数据的标准化,目的是为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理。

因此可以将数据按照比例进行缩放,使之落入一个据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。如将工资收入属性值映射到[-1,1]或者[0,1]之间。

function data1=mfunc_calculate(data,zhibiao_label)
    % 指标的正向化处理 1 2 极大型;3 4 5 极小型;6 单点最优;7 区间最优
    if isa(data,'double')
        for i=1:length(zhibiao_label)
            if (zhibiao_label(i)==1)
                data1(:,i)=zheng1(data(:,i));
            elseif (zhibiao_label(i)==2)
                data1(:,i)=zheng2(data(:,i));
        elseif (zhibiao_label(i)==3)
                data1(:,i)=fu3(data(:,i));
        elseif (zhibiao_label(i)==4)
                data1(:,i)=fu4(data(:,i));
       elseif (zhibiao_label(i)==5)
                data1(:,i)=fu5(data(:,i));
      elseif (zhibiao_label(i)==6)
          prompt = '这是单点最优,请输入单点最优值 ';
           a = input(prompt);
               data1(:,i)=qu6(data(:,i),a);
      elseif (zhibiao_label(i)==7)
         prompt = '这是区间最优,请输入单点最区间如[5,10] ';
          aa=input(prompt);
               data1(:,i)=qu7(data(:,i),aa(1),aa(2));
        end
        end
    elseif isa(data,'cell')
    %     data2=data;
        for j=1:length(data)
            data2=data{j};
            if size(zhibiao_label,1)==1
                zhibiao_label1=repmat(zhibiao_label,3,1);
            else
                zhibiao_label1=zhibiao_label;
           end
            for i=1:length(zhibiao_label1(j,:))
                   if (zhibiao_label(i)==1)
                data1{j}(:,i)=zheng1(data2(:,i));
            elseif (zhibiao_label(i)==2)
                data1{j}(:,i)=zheng2(data2(:,i));
           elseif (zhibiao_label(i)==3)
                data1{j}(:,i)=fu3(data2(:,i));
           elseif (zhibiao_label(i)==4)
                data1{j}(:,i)=fu4(data2(:,i));
          elseif (zhibiao_label(i)==5)
                data1{j}(:,i)=fu5(data2(:,i));
         elseif (zhibiao_label(i)==6)
          prompt = '这是单点最优,请输入单点最优值 ';
           a = input(prompt);
               data1{j}(:,i)=qu6(data2(:,i),a);
        elseif (zhibiao_label(i)==7)
         prompt = '这是区间最优,请输入单点最区间如[5,10] ';
          aa=input(prompt);
               data1{j}(:,i)=qu7(data2(:,i),aa(1),aa(2));
        end
            end
        end
    end
    end
    function data=zheng1(data1)
    %正向指标1
    % 填1的时候选择
    data=(data1-min(data1))./(max(data1)-min(data1));
    end
    function data=zheng2(data1)
    %正向指标2
    % 填2的时候选择
    data=data1;
    end
    function data=fu3(data1)
    %负向指标1
    % 填3的时候选择
    data=(max(data1)-data1)./(max(data1)-min(data1));
    end
    function data=fu4(data1)
    %负向指标2
    % 填4的时候选择
    data=(max(data1)-data1);
    end
    function data=fu5(data1)
    %负向指标3
    % 填5的时候选择
    data=1./(max(abs(data1))+data1);
    end
    function data=qu6(data1,a)
    %某点最优
    % 填6的时候选择
    data=1./(abs(data1-a)/max(abs(data1-a)));
    end
    function data=qu7(data1,a,b)
    %区间指标1
    % 填7的时候选择
    for i=1:length(data1)
        if(data1(i)>a)&&(data1(i)<b)
            data(i)=1;
        elseif (data1(i)<a)
            data(i)=data1(i)/a;
        elseif (data1(i)>b)
            data(i)=b/data1(i);
        end
    end
end

数据清洗

缺失值处理

对于缺失值的三种处理方法:不处理,删除数据,数据插补

数据插补的方法:

  • 均值/中位数/众数插补
  • 使用固定值插补
  • 最近邻插补:即在记录中找到与缺失样本最接近的样本的该属性插补,可以通过计算对象间的欧式距离衡量。
  • 回归方法插补:根据已有数据和与其有关的其他变量的数据建立拟合模型来预测缺失值
  • 插值法插补(推荐):常用的插值法有很多,主要有拉格朗日插值法、牛顿插值法

对于缺失值处理,我们需要分情况讨论。

如果某个变量或某个样本缺失了 70%以上的数据,那么此时对数据进行填补的话,会引入更多的噪声,反而会降低模型的性能,故此时一般直接将该变量或样本删除;

如果缺失的不多,我们可以考虑对缺失值进行填补


matlab API:

  • ismissing 或者 isnan :返回一个与输入矩阵同形状的01矩阵,1表示此位置是缺失值
  • rmmissing:直接删除缺失值所在的行列,第二个参数 1 表示行,2表示列。
  • fillmissing:填补缺失值。
    • 常数填充:constant

      • 插值法,常见的插值方法如下:

      数学建模:数据的预处理,数学建模,MATLAB,数学建模

    • 移动窗口填充法:该方法的思想是在缺失值前后开一个“窗口”,用“窗口”内 的数据的均值中位数进行填充。

代码实现:文章来源地址https://www.toymoban.com/news/detail-681482.html

clc;clear;
% 数据的预处理
load("带缺少数据.mat");

data = data_nan;
%% 缺失值处理
% 判断矩阵中是否存在nan值,返回一个同形状的0-1矩阵,1表示此位置是nan
nan_mat = isnan(data);
%% 直接删除空值所在的行:1
data1 = rmmissing(data); %默认为1行
%% 直接删除空值所在的列:2
data2 = rmmissing(data,2);

%% 填充缺失值,插值 
%  1. 常量填充缺失值
data3 = fillmissing(data,"constant",999);
%% 2. 上一个或者下一个非空值 
data4 = fillmissing(data,'previous'); % next 表示以下一个非空值填充
%% 3. 最邻近的非空值
data5 = fillmissing(data,'nearest');
%% 4. 三次样条插值 
data6 = fillmissing(data,'spline'); % phcip 保持三次样条插值
%% 5. 窗口填补法 
data7 = fillmissing(data,'movmean',8,1); % movean 窗口长度为 window 的移动均值;  movmedian:移动中位数

异常值处理

  • 正态分布3σ原则:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
    • 计算均值 μ 和标准差 σ 。
    • 判断每个数据值是否在(μ-3σ,μ+3σ) 内,不在则为异常值.
    • 异常值可以转换为 nan 值,然后再进行上一步的缺失值处理
  • 画箱线图:下四分位数Q1是排第25%的数值,上四分位数Q3是排第75%的数值。四分位距IQR= Q3-Q1,也就是排名第75%的减去第25%的数值正态分布类似,设置个合理区间,在区间外的就是异常值。一般设[Q1−1.5IQR, Q3+1.5IQR]内为正常值。

到了这里,关于数学建模:数据的预处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模:数据的预处理

    🔆 文章首发于我的个人博客:欢迎大佬们来逛逛 常见的数据变换的方式:通过某些简单的函数进行数据变换。 x ′ = x 2 x ′ = x x ′ = log ⁡ ( x ) ∇ f ( x k ) = f ( x k + 1 ) − f ( x k ) begin{aligned}x^{prime}=x^2 \\\\begin{aligned}x^{prime}=sqrt{x}end{aligned} \\\\x\\\'=log(x) \\\\nabla fleft(x_{k})right.=f

    2024年02月11日
    浏览(39)
  • 数据预处理方法整理(数学建模)

    这篇文章主要是整理了一些作者在各种建模比赛中遇到的数据预处理问题以及方法,主要针对excel或csv格式的数据,为后续进行机器学习或深度学习做前期准备 导入库和文件,这里使用的是绝对路径,可改为相对路径 传入的为csv格式的文件,如果是xlsx格式的文件,建议先使

    2024年02月14日
    浏览(54)
  • 2023高教社数学建模国赛C题 - 蔬菜类商品的自动定价与补货决策(数据预处理部分)附详细代码

    C题用到了vlookup函数将所有数据同类项进行合并,公式如下: 单品类:=VLOOKUP(C2,[附件1.xlsx]Sheet1!A$2:D$252,2,FALSE) 大类: =VLOOKUP(C2,[附件1.xlsx]Sheet1!A$2:D$252,4,FALSE) 批发价格: =VLOOKUP(C2,[附件3.xlsx]Sheet1!B$2:C$55983,2,FALSE) 单品损耗率: =VLOOKUP(H2,[附件4.xlsx]Sheet1!B$2:CS252,2,FALSE) 价格=单位成本

    2024年02月08日
    浏览(50)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)
  • 数据预处理matlab

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    浏览(54)
  • 数据预处理 matlab & 数据质量评估

    知乎 数据类型转换等 Mathworks 数据预处理 概念辨析 配对是 同一批样本的前后 比较,独立是 两批不同样本 的的比较 独立样本是指我们得到的样本是相互独立的。配对样本就是一个样本中的数据与另一个样本中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公

    2024年01月20日
    浏览(52)
  • 基于MATLAB的无人机遥感数据预处理与农林植被性状估算

    在新一轮互联网信息技术大发展的现今,无人机、大数据、人工智能、物联网等新兴技术在各行各业都处于大爆发的前夜。为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节,逐步摆脱人力依赖;在施肥灌溉环节构建智慧节能系统;在产量预测和商品

    2024年02月11日
    浏览(53)
  • MATLAB的无人机遥感数据预处理与农林植被性状估算实践

      在新一轮互联网信息技术大发展的现今,无人机、大数据、人工智能、物联网等新兴技术在各行各业都处于大爆发的前夜。为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节,逐步摆脱人力依赖;在施肥灌溉环节构建智慧节能系统;在产量预测和商

    2024年02月03日
    浏览(76)
  • 基于MATLAB的无人机遥感数据预处理与农林植被性状估算教程

    详情点击链接:基于MATLAB的无人机遥感数据预处理与农林植被性状估算 前言 遥感技术作为一种空间大数据手段,能够从多时、多维、多地等角度,获取大量的农情数据。数据具有面状、实时、非接触、无伤检测等显著优势,是智慧农业必须采用的重要技术之一。   第一:

    2024年02月16日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包