【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题一Python代码分析

这篇具有很好参考价值的文章主要介绍了【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题一Python代码分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2023 年第二届钉钉杯大学生大数据挑战赛 初赛 B:美国纽约公共自行车使用量预测分析 问题一

【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题一Python代码分析,数学建模入门到精通,大数据,python,2023钉钉杯,美国有纽约公共自行车使用量预测,第二届钉钉杯大学生大数据挑战赛

1 题目

Citi Bike是纽约市在2013年启动的一项自行车共享出行计划,由“花旗银行”(Citi Bank)赞助并取名为“花旗单车”(Citi Bike)。在曼哈顿,布鲁克林,皇后区和泽西市有8,000辆自行车和500个车站。为纽约的居民和游客提供一种 方便快捷,并且省钱的自行车出行方式。人们随处都能借到Citi Bank,并在他们的目的地归还。本案例的数据有两部分:第一部分是纽约市公共自行车的借还交易流水表。Citi Bik自行车与共享单车不同,不能使用手机扫码在任意地点借还车,而需要使用固定的自行车桩借还车,数据集包含2013年7月1日至2016年8 月31日共38个月(1158天)的数据,每个月一个文件。其中2013年7月到2014年8 月的数据格式与其它年月的数据格式有所差别,具体体现在变量starttime和stoptime的存储格式不同。

第二部分是纽约市那段时间的天气数据,并存储在weather_data_NYC.csv文 件中,该文件包含2010年至2016年的小时级别的天气数据。

公共自行车数据字段表

变量编号 变量名 变量含义 变量取值及说明
1 trip duration 旅行时长 骑行时间,数值型,秒
2 start time 出发时间 借车时间,字符串,m/d/YYY HH:MM:SS
3 stop time 结束时间 还车时间,字符串,m/d/YYY HH:MM:SS
4 start station id 借车站点编号 定性变量,站点唯一编号
5 start station name 借车站点名称 字符串
6 start station latitude 借车站点维度 数值型
7 start station longtude 借车站点经度 数值型
8 end station id 还车站点编号 定性变量,站点唯一编号
9 end station name 还车站点名称 字符串
10 end station latitude 还车站点纬度 数值型
11 end station longitude 还车站点经度 数值型
12 bile id 自行车编号 定性变量,自行车唯一编号
13 Use type 用户类型 Subscriber:年度用户; Customer:24小时或者7天的临时用户
14 birth year 出生年份 仅此列存在缺失值
15 gender 性别 0:未知 1:男性 2:女性

天气数据字段简介表

变量编号 变量名 变量含义 变量取值及说明
1 date 日期 字符串
2 time 时间 EDT(Eastern Daylight Timing)指美国东部夏令单位
3 temperature 气温 单位:℃
4 dew_poit 露点 单位:℃
5 humidity 湿度 百分数
6 pressure 海平面气压 单位:百帕
7 visibility 能见度 单位:千米
8 wind_direction 风向 离散型,类别包括west,calm等
9 wind_speed 风速 单位:千米每小时
10 moment_wind_speed 瞬间风速 单位:千米每小时
11 precipitation 降水量 单位:毫米,存在缺失值
12 activity 活动 离散型,类别包括snow等
13 conditions 状态 离散型,类别包括overcast,light snow等
14 WindDirDegrees 风向角 连续型,取值为0~359
15 DateUTC 格林尼治时间 YYY/m/d HH:MM

二、解决问题

  1. 自行车借还情况功能实现:

实现各个站点在一天的自行车借还情况网络图,该网络图是有向图,箭头从借车站点指向还车站点(很多站点之间同时有借还记录,所以大部分站点两两之间是双向连接)。

(一)以2014年8月3日为例进行网络分析,实现自行车借还网络图,计算网络图的节点数,边数,网络密度(表示边的个数占所有可能的连接比例数),给出计算过程和画图结果。

(二)使用上述的网络分析图,对经度位于40.695~40.72,纬度位于- 74.023~-73.973之间的局域网区域进行分析,计算出平均最短路径长度(所有点 两两之间的最短路径长度进行算数平均)和网络直径(被定义网络中最短路径的 最大值)。

  1. 聚类分析

对于2013年7月1日至2015年8月31日数据集的自行车数据进行聚类分析,选 择合适的聚类数量K值,至少选择两种聚类算法进行聚类,并且比较不同的聚类 方法以及分析聚类结果。

  1. 站点借车量的预测分析:

对所有站点公共自行车的借车量预测,预测出未来的单日借车量。将2013年 7月-2015年7月数据作为训练集,2015年8月1-31日的数据作为测试集,预测2015 年8月1-31日每天的自行车单日借车量。给出每个站点预测结果的MAPE,并且给 出模型的参数数量,最后算出所有站点的MAPE的均值(注:测试集不能参与到训 练和验证中,否则作违规处理)。
M A P E = 1 n ∑ ∣ y i − y i ^ y i ∣ × 100 % MAPE = \frac{1}{n} \sum{|\frac{y_i-\hat{y_i}}{y_i}|} \times 100\% MAPE=n1yiyiyi^×100%

2 问题分析

2.1 问题一

  1. 绘制有向图

a. 读入数据并分别提取“起始站点编号”和“结束站点编号”两列数据,构建自行车借还网络图。

b. 对于第一步构建的网络图,我们需要计算网络图的节点数,边数,网络密度。节点数即为站点数,边数为借还次数。网络密度为边的数量占所有可能的连接比例。

c. 画出自行车借还网络图。

e. 计算平均最短路径长度和网络直径

首先选出符合条件(经度位于40.695~40.72,纬度位于- 74.023~-73.973之间)的借车站点和还车站点,并以它们为节点构建一个子图进行分析。然后可以直接使用networkx库中的函数来计算平均最短路径长度和网络直径。

2.2 问题二

  1. 数据预处理:对进行数据清洗和特征提取。可以使用PCA、LDA算法进行降维,减小计算复杂度。

  2. 聚类算法:
    a. K-means: 进行数据聚类时,选择不同的K值进行多次试验,选取最优的聚类结果。可以使用轮廓系数、Calinski-Harabaz指数等评价指标进行比较和选择。
    b. DBSCAN: 利用密度对数据点进行聚类,不需要预先指定聚类的数量。使用基于密度的聚类算法时,可以通过调整半径参数和密度参数来得到不同聚类效果。
    c. 层次聚类:可分为自顶向下和自底向上两种方式。通过迭代计算每个数据点之间的相似度,将数据点逐渐合并,最后得到聚类结果。

    d.改进的聚类算法

    e. 深度聚类算法

  3. 聚类结果分析:选择最优的聚类结果后,对不同类别骑车的用户进行画像。分析每个类别的用户行为特征。

2.3 问题三

  1. 导入数据并进行数据预处理,整合以站点为单位的借车数据。
  2. 对数据进行时间序列分析,使用ARIMA模型进行单日借车量预测。
  3. 使用时间序列交叉验证方法进行模型评估,计算每个站点预测结果的MAPE。
  4. 计算所有站点的MAPE的均值,给出模型的参数数量。

3 Python代码实现

3.1 问题一

以1000条数据为例

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_csv('初赛数据集/2013-08 - Citi Bike trip data.csv')
df = data[0:1000]

。。。略

# 添加边
# 添加自行车借还关系作为网络图的边
for idx, row in df.iterrows():
    G.add_edge(row['start station id'], row['end station id'])

# 获取节点数和边数
node_num = G.number_of_nodes()
edge_num = G.number_of_edges()

# 计算网络密度
density = nx.density(G)
plt.figure(figsize=(15,10))
# 绘制网络图
pos = nx.spring_layout(G, k=0.1) # 用Spring算法布局网络图
nx.draw_networkx(G, pos=pos, node_size=20, edge_color='gray', alpha=0.5)
plt.savefig('img/有向图.png',dpi=300)
plt.show()

# 输出结果
print('节点数:', node_num)
print('边数:', edge_num)
print('网络密度:', density)

【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题一Python代码分析,数学建模入门到精通,大数据,python,2023钉钉杯,美国有纽约公共自行车使用量预测,第二届钉钉杯大学生大数据挑战赛


import pandas as pd
import networkx as nx

# 导入数据
df = pd.read_csv('初赛数据集/2013-08 - Citi Bike trip data.csv')

# 筛选符合条件的借还车站点
df_filtered = df[(df['start station longitude']>=-74.023) & (df['start station longitude']<=-73.973) &
                 (df['end station longitude']>=-74.023) & (df['end station longitude']<=-73.973) &
                 (df['start station latitude']>=40.695) & (df['start station latitude']<=40.72) &
                 (df['end station latitude']>=40.695) & (df['end station latitude']<=40.72)]

。。。略

# 添加边
# 添加自行车借还关系作为网络图的边
for idx, row in df_filtered.iterrows():
    G.add_edge(row['start station id'], row['end station id'])

# 计算平均最短路径长度和网络直径
average_shortest_path_length = nx.average_shortest_path_length(G)
diameter = nx.diameter(G)

# 输出结果
print('平均最短路径长度:', average_shortest_path_length)
print('网络直径:', diameter)

3.2 问题二

见另一篇博客,持续更新

3.3 问题三

见另一篇博客,持续更新

4 完整代码下载

见知乎文章底部链接,包括所有问题的全部代码

zhuanlan.zhihu.com/p/643865954文章来源地址https://www.toymoban.com/news/detail-583031.html

到了这里,关于【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题一Python代码分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 2023年第二届网络安全国际会议(CSW 2023)

    会议简介 Brief Introduction 2023年第二届网络安全国际会议(CSW 2023) 会议时间:2023年10月13日-15日 召开地点:中国·杭州 大会官网:www.cybersecurityworkshop.org 2023年第二届网络安全国际会议(CSW 2023)由杭州电子科技大学,国际电气、电子与能源工程协会(IAEEEE)联合主办,CoreShare科享学术

    2024年02月13日
    浏览(27)
  • Spinger ESE独立出版|2023年第二届能源与环境工程国际会议(CFEEE 2023)

    会议简介 Brief Introduction 2023年第二届能源与环境工程国际会议(CFEEE 2023) 会议时间:2023年9月1日-3日 召开地点:中国·三亚 大会官网:CFEEE 2023-2023 International Conference on Frontiers of Energy and Environment Engineering 由IEEE PES智能楼宇、负载及客户系统技术委员会、华南理工大学、浙江大

    2024年02月16日
    浏览(29)
  • 西安石油大学2023年第三届里奇杯编程大赛(初赛)

    官方题解地址1v7w (郭毅佬!):https://www.cnblogs.com/1v7w/p/17437203.html 描述 你说得对,但是 “ 里奇杯 ” 是西安石油大学计算机协会举办的程序设计竞赛,比赛旨在激发同学们学习程序设计的热情,提高编程能力,调动编程的兴趣和积极性,在这里,你将扮演名为“参赛选手”

    2024年02月09日
    浏览(25)
  • 2023年第十四届蓝桥杯Java_大学B组真题

    【考生须知】 考试开始后,选手首先下载题目,并使用考场现场公布的解压密码解压试 题。 考试时间为 4 小时。考试期间选手可浏览自己已经提交的答案,被浏览的答案允许拷贝。时间截止后,将无法继续提交或浏览答案。 对同一题目,选手可多次提交答案,以最后一次提

    2023年04月11日
    浏览(30)
  • 2023 年第五届河南省 CCPC 大学生程序设计竞赛

    Problem A. 小水獭游河南 ∣ a ∣ ≤ ∣ Σ ∣ = 26 ,暴力枚举 a 判断 b 是否为是回文串即可,时间复杂度 O ( ∣ Σ ∣ ∣ s ∣ ) 。 |a| ≤ |Σ| = 26,暴力枚举 a 判断 b 是否为是回文串即可,时间复杂度 O(|Σ||s|)。 ∣ a ∣ ≤ ∣Σ∣ = 26 ,暴力枚举 a 判断 b 是否为是回文串即可,时间复

    2024年02月03日
    浏览(66)
  • 2023年第三届陕西省大学生网络安全技能大赛 web部分 wp

    总体来说还行,就是又感受到了py的成分,多的不说,星盟出的题,题目质量还是可以的,希望之后通过学习大佬的姿势来长长见识。 目录 EZPOP  RCE unserialize 首先来到页面   点击,就是空白页,查看源代码 F12都会进入空白页,猜测存在js在搞怪。 先打开一个空白页,再f12,

    2024年02月10日
    浏览(34)
  • 2023 年第八届数维杯大学生数学建模挑战赛 B 题 节能列车运行控制优化策略

    在城市交通电气化进程快速推进的同时,与之相应的能耗增长和负面效应也 在迅速增加。城市轨道交通中的快速增长的能耗给城轨交通的可持续性发展带来 负担。2018 年,北京、上海、广州地铁负荷占全市总负荷的 1.5%-2.5%,成为了 城市电网的最大单体负荷[1]。在“双碳”政策

    2024年02月06日
    浏览(46)
  • 2023 年第八届数维杯大学生数学建模挑战赛 C 题 宫内节育器的生产

    宫内节育器 (IUD) 是一种相对安全、有效、经济、可逆、简便,广大妇女 易接受的节育器具, 目前已成为我国育龄妇女的主要避孕措施。据悉,我国约 70%妇女选用IUD 作为避孕方法, 占世界 IUD 避孕总人数的 80% 。某公司研发了 两种型号的 VCu记忆型宫内节育器,分别为 VCu260 记

    2024年02月11日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包