互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析

这篇具有很好参考价值的文章主要介绍了互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0 前言

🔥 优质竞赛项目系列,今天要分享的是

🚩 基于大数据的基站数据分析与可视化

该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:3分
  • 工作量:3分
  • 创新点:3分

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate文章来源地址https://www.toymoban.com/news/detail-833190.html

课题背景

  • 随着当今个人手机终端的普及,出行群体中手机拥有率和使用率已达到相当高的比例,手机移动网络也基本实现了城乡空间区域的全覆盖。根据手机信号在真实地理空间上的覆盖情况,将手机用户时间序列的手机定位数据,映射至现实的地理空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘得到人口空间分布与活动联系特征信息。移动通信网络的信号覆盖从逻辑上被设计成由若干六边形的基站小区相互邻接而构成的蜂窝网络面状服务区,手机终端总是与其中某一个基站小区保持联系,移动通信网络的控制中心会定期或不定期地主动或被动地记录每个手机终端时间序列的基站小区编号信息。
  • 商圈是现代市场中企业市场活动的空间,最初是站在商品和服务提供者的产地角度提出,后来逐渐扩展到商圈同时也是商品和服务享用者的区域。商圈划分的目的之一是为了研究潜在的顾客的分布以制定适宜的商业对策。

分析方法与过程

初步分析:

  • 手机用户在使用短信业务、通话业务、开关机、正常位置更新、周期位置更新和切入呼叫的时候均产生定位数据,定位数据记录手机用户所处基站的编号、时间和唯一标识用户的EMASI号等。历史定位数据描绘了用户的活动模式,一个基站覆盖的区域可等价于商圈,通过归纳经过基站覆盖范围的人口特征,识别出不同类别的基站范围,即可等同地识别出不同类别的商圈。衡量区域的人口特征可从人流量和人均停留时间的角度进行分析,所以在归纳基站特征时可针对这两个特点进行提取。

总体流程:

互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

1.数据探索分析

EMASI号为55555的用户在2014年1月1日的定位数据
互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java
互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

2.数据预处理

数据规约

  1. 网络类型、LOC编号和信令类型这三个属性对于挖掘目标没有用处,故剔除这三个冗余的属性。而衡量用户的停留时间并不需要精确到毫秒级,故可把毫秒这一属性删除。
  2. 把年、月和日合并记为日期,时、分和秒合并记为时间。
    互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java
 import numpy as np  
import pandas as pd  

data=pd.read_excel(‘C://Python//DataAndCode//chapter14//demo//data//business_circle.xls’)  
 

# print(data.head())  

#删除三个冗余属性  
del data[[‘网络类型’,‘LOC编号’,‘信令类型’]]



    #合并年月日
    periods=pd.PeriodIndex(year=data['年'],month=data['月'],day=data['日'],freq='D')
    data['日期']=periods
    time=pd.PeriodIndex(hour=data['时'],minutes=data['分'],seconds=data['秒'],freq='D')
    data['时间']=time
    data['日期']=pd.to_datetime(data['日期'],format='%Y/%m/%d')
    data['时间']=pd.to_datetime(data['时间'],format='%H/%M/%S')



数据变换

假设原始数据所有用户在观测窗口期间L( 天)曾经经过的基站有 N个,用户有 M个,用户 i在 j天在 num1 基站的工作日上班时间停留时间为
weekday_num1,在 num1 基站的凌晨停留时间为night_num1 ,在num1基站的周末停留时间为weekend_num1, 在
num1基站是否停留为 stay_num1 ,设计基站覆盖范围区域的人流特征:
互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java
由于各个属性的之间的差异较大,为了消除数量级数据带来的影响,在进行聚类前,需要进行离差标准化处理。

 #- _\- coding: utf-8 -_ -  
 #数据标准化到[0,1]  
 import pandas as pd  
  
#参数初始化  
filename = ‘…/data/business_circle.xls’ #原始数据文件  
standardizedfile = ‘…/tmp/standardized.xls’ #标准化后数据保存路径


    data = pd.read_excel(filename, index_col = u'基站编号') #读取数据
    
    data = (data - data.min())/(data.max() - data.min()) #离差标准化
    data = data.reset_index()
    
    data.to_excel(standardizedfile, index = False) #保存结果



互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

3.构建模型

构建商圈聚类模型

采用层次聚类算法对建模数据进行基于基站数据的商圈聚类,画出谱系聚类图。从图可见,可把聚类类别数取3类。

 #- _\- coding: utf-8 -_ -  
 #谱系聚类图  
import pandas as pd  
  
#参数初始化  
standardizedfile = ‘…/data/standardized.xls’ #标准化后的数据文件  
data = pd.read_excel(standardizedfile, index_col = u’基站编号’) #读取数据




```python
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import linkage,dendrogram
#这里使用scipy的层次聚类函数

Z = linkage(data, method = 'ward', metric = 'euclidean') #谱系聚类图
P = dendrogram(Z, 0) #画谱系聚类图
plt.show()
```



互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

模型分析

针对聚类结果按不同类别画出4个特征的折线图。

#- _\- coding: utf-8 -_ - 
#层次聚类算法 
import pandas as pd 

#参数初始化 
standardizedfile = ‘…/data/standardized.xls’ #标准化后的数据文件
k = 3 #聚类数
data = pd.read_excel(standardizedfile, index_col = u’基站编号’) #读取数据

    from sklearn.cluster import AgglomerativeClustering #导入sklearn的层次聚类函数
    model = AgglomerativeClustering(n_clusters = k, linkage = 'ward')
    model.fit(data) #训练模型
    
    #详细输出原始数据及其类别
    r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)  #详细输出每个样本对应的类别
    r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
    
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
    
    style = ['ro-', 'go-', 'bo-']
    xlabels = [u'工作日人均停留时间', u'凌晨人均停留时间', u'周末人均停留时间', u'日均人流量']
    pic_output = '../tmp/type_' #聚类图文件名前缀
    
    for i in range(k): #逐一作图,作出不同样式
      plt.figure()
      tmp = r[r[u'聚类类别'] == i].iloc[:,:4] #提取每一类
      for j in range(len(tmp)):
        plt.plot(range(1, 5), tmp.iloc[j], style[i])
      
      plt.xticks(range(1, 5), xlabels, rotation = 20) #坐标标签
      plt.title(u'商圈类别%s' %(i+1)) #我们计数习惯从1开始
      plt.subplots_adjust(bottom=0.15) #调整底部
      plt.savefig(u'%s%s.png' %(pic_output, i+1)) #保存图片


互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

对于商圈类别1,日均人流量较大,同时工作日上班时间人均停留时间、凌晨人均停留时间和周末人均停留时间相对较短,该类别基站覆盖的区域类似于商业区

互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

对于商圈类别2,凌晨人均停留时间和周末人均停留时间相对较长,而工作日上班时间人均停留时间较短,日均人流量较少,该类别基站覆盖的区域类似于住宅区。

互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析,python,java

对于商圈类别3,这部分基站覆盖范围的工作日上班时间人均停留时间较长,同时凌晨人均停留时间、周末人均停留时间相对较短,该类别基站覆盖的区域类似于白领上班族的工作区域。

总结

商圈类别2的人流量较少,商圈类别3的人流量一般,而且白领上班族的工作区域一般的人员流动集中在上下班时间和午间吃饭时间,这两类商圈均不利于运营商的促销活动的开展,商圈类别1的人流量大,在这样的商业区有利于进行运营商的促销活动。

最后

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

到了这里,关于互联网加竞赛 大数据商城人流数据分析与可视化 - python 大数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 互联网加竞赛 基于大数据的社交平台数据爬虫舆情分析可视化系统

    🔥 优质竞赛项目系列,今天要分享的是 🚩 基于大数据的社交平台数据爬虫舆情分析可视化系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 🧿 更多资料, 项目分享: h

    2024年02月02日
    浏览(60)
  • 互联网加竞赛 基于大数据的时间序列股价预测分析与可视化 - lstm

    🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计 大数据时间序列股价预测分析系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:3分 🧿 更多资料, 项目分享: https://gite

    2024年01月15日
    浏览(53)
  • 竞赛保研 大数据商城人流数据分析与可视化 - python 大数据分析

    🔥 优质竞赛项目系列,今天要分享的是 🚩 基于大数据的基站数据分析与可视化 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:3分 🧿 更多资料, 项目分享: https://gitee.com/danc

    2024年01月18日
    浏览(53)
  • BS1066-基于大数据爬虫实现互联网研发岗位数据分析平台

    本基于大数据爬虫实现互联网研发岗位数据分析平台,系统主要采用java,互联网爬虫技术,动态图表echarts,springboot,mysql,mybatisplus,岗位推荐算法,实现基于互联网招聘岗位实现针对用户的岗位推荐, 系统提供招聘岗位网站前台,系统岗位数据分析可视化平台展示等功能

    2024年02月13日
    浏览(51)
  • 互联网加竞赛 基于机器学习与大数据的糖尿病预测

    🔥 优质竞赛项目系列,今天要分享的是 基于机器学习与大数据的糖尿病预测 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 🧿 更多资料, 项目分享: https://gitee.com/dancheng-

    2024年01月16日
    浏览(47)
  • Wireshark数据抓包分析之互联网协议(IP协议)

            通过wireshark抓包分析IP协议的具体内容         1.IP地址存在的意义,就是为了弥补mac地址的不足,用于区分不同的网络         2.还有一些ip协议、ip数据包这些东西 part1:数据包的抓取 1.抓取发往www.baidu.com的ip数据包,略,因为虚拟机无法联网,这里桌面有现成的

    2024年02月11日
    浏览(49)
  • 互联网时代的文学复兴:中文诗词大数据分析 | 开源日报 No.170

    Stars: 45.4k License: MIT 最全的中文诗歌古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。数据来源于互联网。该开源项目旨在通过 JSON 格式分发,方便用户开始自己的项目,并借助技术生成格式化 (JSON) 数据来构建诗词类应用程序。案例展示了一些

    2024年02月21日
    浏览(74)
  • Wireshark数据抓包分析之互联网控制报文协议_ICMP

            通过使用wireshark抓取的ICMP数据包对这个ICMP控制报文进行分析         1.ICMP协议概述:ICMP是Internet Control Message Protocol的缩写,即互联网控制报文协议。它是TCP/IP协议族的一个子协议,用于IP主机、路由器直接传递控制信息。控制信息是指网络通不通、主机是否可达、

    2024年02月11日
    浏览(45)
  • 数据分析和互联网医院小程序:提高医疗决策的准确性和效率

    互联网医院小程序已经在医疗领域取得了显著的进展,为患者和医疗从业者提供了更便捷和高效的医疗服务。随着数据分析技术的快速发展,互联网医院小程序能够利用大数据来提高医疗决策的准确性和效率。本文将探讨数据分析在互联网医院小程序中的应用,以及如何实现

    2024年02月08日
    浏览(48)
  • AI+互联网产品开发技能:数据分析、机器学习、深度学习、产品设计、产品运营

    作者:禅与计算机程序设计艺术 2020年全球新冠疫情席卷全球。疫情期间互联网行业迅速崛起。线上线下形成了巨大的市场,如在线学习、直播、短视频、金融、电商、O2O等。在这样的背景下,如何用人工智能技术进行优化布局、降低成本、提升效益,成为很多互联网公司的

    2024年02月10日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包