2023华中杯C题分析

这篇具有很好参考价值的文章主要介绍了2023华中杯C题分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

C 题空气质量预测与预警

空气污染对人类健康、生态环境、社会经济造成危害，其污染水平受诸多因素的影响，如 PM2.5、PM10、CO、气温、风速、降水量等，探究 PM2.5 等污染物浓度的因素，更精准的预测 PM2.5 浓度和 AQI 指数等是科学界和决策者共同关心的问题，对于解析污染影响因素和有效制订控制策略具有重要意义。

为了健全和针对完善重污染天气的应对处置机制，提高重污染天气预防预警、应急响应能力和环境精细化管理水平，消除重度及以上污染天气，作为突发环境事件应急预案体系的重要组成部分，某地发布污染天气应急预案，该预案将加强监测预警和节能减排，最大程度降低污染天气的影响。其预警等级划分为四级应急响应：

蓝色预警：预测日 AQI＞150 或日 AQI＞100 持续 48 小时及以上。

黄色预警：预测日 AQI＞200 或日 AQI＞150 持续 48 小时及以上。

橙色预警：预测日 AQI＞200 持续 48 小时或日 AQI＞150 持续 72 小时及以上。

红色预警：预测日 AQI＞200 持续 72 小时且日 AQI＞300 持续 24 小时及以上。请参赛团队根据问题要求，完成以下问题（任务）：

问题一：根据附件 1 和附件 2，对数据进行分析和处理，筛选出与 PM2.5 浓度变化有关的因素，并说明筛选出的因素对 PM2.5 浓度影响的程度。

本题是典型的时间序列分析问题，问题一中明确指出要利用两个附件的数据：

2023华中杯C题分析

本道题应该至少存在前两个步骤：

一、数据观测与数据预处理

2023华中杯C题分析

观察数据的结果，显然附件二中的第一列都是1，第二列是年份，第三列是月份，第四列是日期。第一列的常数对预测没有价值，可以直接剔除。

质量等级是一个字符串型的数据，除了空白以外，分别有七种取值，这里可以使用数字0-6分别表示七种文本。更进一步，可以对数字变量做one-hot编码，衍生成新的7个0-1特征，更适配神经网络。

当然，也需要对数据进行预处理和特征检验。例如缺失值处理、异常值处理等等。

二、相关性分析

本题的相关性分析不仅需要找出与PM2.5的相关的变量，还需要量化相关性的大小。

最简单的方法是pearson相关系数，在数据不满足正态分布的前提下，可以使用spearman相关系数。

三、回归和机器学习

在此基础上，常见的回归分析都可以讨论自变量对因变量的影响程度。将全部数据归一化消除量纲的影响以后，可以带入回归模型、机器学习，利用多元线性回归分析的标准化系数、机器学习模型的特征重要性来判断。利用这些可以度量的数据，可以直观反映影响的大小。

四、attention机制和transformer

有基础的同学可以使用神经网络+attention的做法，attention也可以展示神经网络算出的因变量对自变量的重视程度，而且可以预见使用的人较少，如果能实现无疑是一个亮点。

问题二：自行划分训练集和测试集，根据附件 1 和附件 2，基于问题一构建 PM2.5 浓度多步预测模型，分别使用均方根误差（RMSE）对 3 步、5 步、7 步、12 步预测效果进行评估，其结果请用表 1 格式在正文中具体给出，并对测试集及其预测结果进行可视化。同时，用该模型预测附件 3 所给定时间的 PM2.5 浓度，其结果请用表 2 格式在正文中具体给出。

2023华中杯C题分析