【大数据实训】基于赶集网租房信息的数据分析与可视化(七)

这篇具有很好参考价值的文章主要介绍了【大数据实训】基于赶集网租房信息的数据分析与可视化(七)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

温馨提示:文末有 CSDN 平台官方提供的博主 的联系方式,有偿帮忙部署

基于赶集网租房信息的数据分析与可视化

一、实验环境

(1)Linux: Ubuntu 16.04
(2)Python: 3.6
(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3
(6)可视化工具:Echarts
(7)开发工具:Visual Studio Code

二、小组成员及分工

(1)成员:林xx,xxx,xxx

(2)分工:xxx负责xxxx部分,xxx负责xxxx部分,xxx负责xxxx部分。

三、数据采集

3.1数据集说明

爬取网站:http://xm.ganji.com/zufang/pn1/。是赶集网的厦门房产的租房信息网站。数据文件:ganji_rent1.csv。其中包含了1504条与租房信息有关的数据。

数据格式为:

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 3. 1 采集数据格式

数据中包含的内容如下:
(1)name: 房源的标题
(2)house_type: 房源的类型

(3)Area: 房源的面积(m²)
(4)direction: 房源的朝向
(5)renovation: 房源的装修程度
(6)price: 房源的月租(元/月)

(7)location:: 房源所处位置

3.2.爬取数据集以及将其保存到本地E盘文件中的流程

(1)选取所需要爬取的页面进行遍历爬取

(2)通过正则表达式抓取所需要的数据

(3)将爬取出的数据转化为dataframe格式并保存为csv文件存放在E盘

四、数据清洗与预处理

文章来源地址https://www.toymoban.com/news/detail-776573.html

五、spark数据分析

5.1 数据分析目标

本文对音乐专辑数据集ganji_rent1.csv进行了一系列的分析,包括:
(1)房源的房租分布情况。(观察月租价格大体集中在哪个分段,得出月租趋势)
(2)房源的朝向分布情况。(观察房源的基本朝向,得出最佳朝向)
(3)房源的区域分布情况。(观察哪些区域房源多)

(4)房源的房型分布情况。(观察哪种房型数量最多)

(5)房源的面积分布情况。(观察面积大体集中在哪个分段)

(6)房源的装修程度分布情况。(观察房源最基本装修程度)

(7)不同区域的租价分布情况。(观察月租价格大体集中在哪个分段)

(8)热门房源标题词云展示。(观察最热门的标题,得出标题最好应具备的元素)

六、数据可视化

本实验的可视化基于Echarts实现。

6.1.可视化环境

利用和鲸社区虚拟环境进行可视化操作,最后的代码结构如下。

6.2 图表展示与结论分析

(1)通过统计房源的房租分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.1 房租分布情况

分析结论:通过这个图可以看出月租大体集中在3004500这里,这也说明大部分租房的人租房都会租相对便宜的,比如3002300这里,所以相对的月租便宜的房源也就多,而月租4500以上的房源因为租的人少,所以相对的房源也就少了。虽然数据量很少,但从这也可看300~4500的房源数量有1290,而4500以上的房源只有214,前者时后者的6倍有余,从这我们也可大胆推测,我国中底层收入人数,是中高层收入的6倍左右。

(2)通过统计房源的朝向分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.2 朝向分布情况

分析结论:通过这个图我们可以看出朝向绝大部分都是南向或者南北向,或者是跟南、北有关的,这也反映了我国房子基本都是“坐北朝南”的。因为我国地处北温带,这样以便于采光通风。这也就是所谓的“南北通透”。

所以:①如果你是租房人想要房间采光透气好,就租南北向的房子,这种房源也比较多也好租到;②如果你是出租房源的人,你的房源最好是要南北向的,这样你的价格也可以租的相比于其他方向的房源的价格高。

(3)通过统计房源的区域分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.3_1 区域分布情况

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.3_2 区域分布情况

分析结论:通过这两个图我们可以看出大部分房源都集中在县后,滨海社区,孙板路,高新技术园,软件园等,这些地方都有一些共同的特征,如:附近交通便利,靠近工作区,离相对的市中心有点距离等等。而环岛路等地的房源就相对较少,这也说明虽然那附近的风景优美,但是交通不够便利,只有享受生活的人才会租这些地方,而享受生活的人,大部分也都是有钱了,他们也不会租,他们是直接就买了住了,所以这些地方的房源就相对较少。

所以:①如果你是租房人,你想要租房就可以结合自己工作的地方然后多往县后,滨海社区,孙板路,高新技术园,软件园等这几个地点考虑,这些地点房源多,出行也便利;②如果你是出租房源的人,你就可以多购进这县后,滨海社区,孙板路,高新技术园,软件园等几个地点的房源,这样也会相对其他地方比较好出售。

(4)通过统计房源的房型分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.4 房型分布情况

分析结论:通过这个图我们可以看出大部分房源都是1室的,这也说明现在租房的人大部分都是打工人,他们基本都是独自一人出来工作,就算是两三人结伴,也基本会一室的房子挤一挤就好,他们在考虑价格方面都会多于房子环境。

所以:①如果你是租房人,你经济不允许的话租一室的就好了,这样也能让你省下不少的房租费,绝大部分人都是如此过来的。②如果你是出租房源的人,在相对靠近集中的工作区的地方,你就可以多购进一室的房源,因为这些地方对于一室的房源需求量大。而在相对靠近市中心的地方,你就可以多购进2室或以上的房源,因为在这些地方租房的人会比较在意房源的环境跟户型。

(5)通过统计房源的面积分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.5 面积分布情况

分析结论:通过这个图我们可以看出50%左右的房源的面积都是在45m²以下,这就跟上面4)的房型分布相呼应了。也侧面说明了50%左右的租房人是比较不在意房子环境,而比较在意价格的。

(6)通过统计房源的装修程度分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.6 装修程度分布

分析结论:通过这个图我们可以看出房源的装修程度几乎都是精装修。而毛胚房只有个位数。所以:如果你是出租房源的人,你就应该至少把你的房源简单装修,最好是精装修,虽然这样要花钱,但是你的竞争力也会更大,回本也会更快。

(7)通过统计不同区域的租价分布情况进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.7 不同区域的租价分布

分析结论:因为是经过排序的原因,所以数量基本上分布在左边,所以热力图的左边颜色较深,这也说明了我本身获取的数据量不足,才会导致热力图大部分颜色都很淡。通过图7.1我们可以看出县后、软件园、高新技术产业园,高崎的房源月租集中在3001300、13002300、2300~4500(因为区域过多,所以很多区域需要在可视化出来的图上用鼠标放在热力图上才可以显示位置。),这也说明了在这些地方附近普通打工人居多,而4500以上的房源集中在滨海社区、环东海域、马銮湾新城、瑞景等,这也说明了这些地方附近相对繁荣热闹、或者环境相对优美。

所以:①你想找简单的工作话可以在县后、软件园、高新技术产业园等附近找,这些地方附近月租便宜,而且房源多,也就说明了这些地方附近工作多。而想在比较热闹的地方租房的话可在马銮湾新城、瑞景、滨海社区等地租房,当然月租也很贵。②如果你是租房人话,你可以多在县后、软件园、高新技术产业园等地购进300~2300的房源,这些地方相对低价月租的房源需求量大,而在滨海社区、环东海域、马銮湾新城、瑞景等地就应该购进环境好的房型大的房源。

(8)通过统计热门房源标题进行数据可视化图表分析

房屋租赁数据分析价格可视化,# 课设&毕设,大数据,数据分析,数据挖掘

图 6.2.8 热门房源标题词云展示

分析结论:通过这个图我们可以看出几乎所有房源标题都会把他们的卖点贴出来,比如几室几厅,位于的地点,装修程度等,这就跟我们日常看到新闻一样,他们都会把比较吸引眼球的点贴出来。

所以:①如果你是租房人,就算它的标题写的再好,你点进去后一定要仔细看一下其他具体的内容,不要盲目就下单,不然很容易被坑。②如果你是出租房源的人,你一定要把你的优势,比如装修程度,位于的地点贴出来,还有可以贴上低价,豪华装修等字眼吸引租房人,这样你的租房信息的浏览量就会往上增,看的人多了,自然把房子租出去的机会也就大了。

七、心得体会

到了这里,关于【大数据实训】基于赶集网租房信息的数据分析与可视化(七)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【开题报告】基于大数据的北京市租房的数据分析与可视化

    题  目 基于大数据的北京市租房的数据分析与可视化 一、选题的目的、意义、研究现状,本选题研究的基本内容、拟解决的主要问题: (一)选题的目的及意义 随着一届又一届的大四学生即将毕业并去往一个陌生的城市工作,实现自己的人生价值,在一个陌生的城市居住就

    2024年02月04日
    浏览(34)
  • 【基于HBase和ElasticSearch构建大数据实时检索项目】

    利用HBase存储海量数据,解决海量数据存储和实时更新查询的问题; 利用ElasticSearch作为HBase索引,加快大数据集中实时查询数据; 使用到的大数据组件有:Hadoop-2.7.3、HBase-1.3.1、zookeeper-3.4.5、ElasticSearch-7.8.0 实验环境: 虚拟机(操作系统CentOS7.6) + 个人PC(Windows)+ Eclipse或者

    2024年02月14日
    浏览(32)
  • 【毕设选题】基于大数据的招聘与租房分析可视化系统

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月14日
    浏览(35)
  • 【大数据实训】基于Hive的北京市天气系统分析报告(二)

    博主介绍 : ✌ 全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战 ✌ 🍅 文末获取项目联系 🍅 目录 1. 引言 1.1 项目背景 1 1.2 项目意义 1 2. 需求分析 2 2.1 数据清洗需求分析

    2024年02月09日
    浏览(29)
  • 大数据项目实战——基于某招聘网站进行数据采集及数据分析(二)

    第二章 搭建大数据集群环境 了解虚拟机的安装和克隆 熟悉虚拟机网络配置和 SSH 服务配置 掌握 Hadoop 集群的搭建 熟悉 Hive 的安装 掌握 Sqoop 的安装 搭建大数据集群环境是开发本项目的基础。本篇将通过在虚拟机中构建多个Linux操作系统的方式来搭建大数据集群环境。 Hadoop本

    2024年02月11日
    浏览(41)
  • 大数据项目实战——基于某招聘网站进行数据采集及数据分析(三)

    第三章 数据采集 掌握 HDFS API 的基本使用 熟悉 HttpClent 爬虫的使用方法 本篇主要对要采集的数据结构进行分析以及创建编写数据采集程序的环境,为最终编写数据采集程序做准备。 在爬取网站数据前要先通过分析网站的源码结构制定爬虫程序的编写方式,以便能获取准确的

    2024年02月11日
    浏览(37)
  • 大数据项目实战——基于某招聘网站进行数据采集及数据分析(一)

    掌握项目需求和目标 了解项目架构设计和技术选型 了解项目环境和相关开发工具 理解项目开发流程 在人力资源管理领域,网络招聘近年来早已凭借其范围广、信息量大、时效性强、流程简单而效果显著等优势,成为企业招聘的核心方式。随着大数据渐渐融入人类社会生活的

    2024年02月02日
    浏览(47)
  • Spark 大数据实战:基于 RDD 的大数据处理分析

    之前笔者参加了公司内部举办的一个 Big Data Workshop,接触了一些 Spark 的皮毛,后来在工作中陆陆续续又学习了一些 Spark 的实战知识。 本文笔者从小白的视角出发,给大家普及 Spark 的应用知识。 Spark 集群是基于 Apache Spark 的分布式计算环境,用于处理 大规模数据集 的计算任

    2024年01月25日
    浏览(35)
  • 大数据实验 实验四:NoSQL 和关系数据库的操作比较

    理解四种数据库(MySQL、HBase、Redis 和 MongoDB)的概念以及不同点; 熟练使用四种数据库操作常用的 Shell 命令; 熟悉四种数据库操作常用的 Java API。 操作系统:centos7 Hadoop 版本:3.3; MySQL 版本:8.0.22; HBase 版本:2.4.11; Redis 版本:5.0.5; MongoDB 版本:5.0; JDK 版本:1.8; Java

    2024年04月16日
    浏览(28)
  • 看这篇就明白大数据实时数仓、离线数仓、数据湖之间的关系

      20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT的研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完

    2024年02月08日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包