数据分析实战:城市房价分析

这篇具有很好参考价值的文章主要介绍了数据分析实战:城市房价分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

流程图:

数据分析实战:城市房价分析,数据库,人工智能,数据分析,房价分析,机器学习

1.读数据表

首先,读取数据集。

CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT target
0.00632 18 2.31 0 0.538 6.575 65.2 4.09 1 296 15.3 396.9 4.98 24
0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 396.9 9.14 21.6
0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7
0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 394.63 2.94 33.4
0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 396.9 5.33 36.2

读取数据集之后,通过了解各个字段的具体含义,详细含义可见此处。可以初步将房价以外的13个字段大致分为四类用于探索其与房价之间的关系,四类分别为:房屋房间数(包含字段RM)、居民质量(包含字段LSTAT,B,CRIM以及PTRATIO)、周边交通情况(包含字段DIS,RAD)、以及环境问题(包含字段CHAS)。接下来的可视化分析将基于以上四大类开展,逐一分析其分布情况与该类字段与波士顿地区房价的关系。

2.字段基本统计信息

查看数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本信息。

CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT target
样本数 506 506 506 506 506 506 506 506 506 506 506 506 506 506
均值 3.6135235573 11.3636363636 11.1367786561 0.0691699605 0.5546950593 6.2846343874 68.5749011858 3.7950426877 9.5494071146 408.2371541502 18.4555335968 356.6740316206 12.6530632411 22.5328063241
标准差 8.6015451053 23.3224529945 6.8603529409 0.2539940413 0.1158776757 0.7026171434 28.1488614069 2.1057101266 8.7072593842 168.537116055 2.1649455237 91.2948643842 7.1410615113 9.1971040874
最小值 0.00632 0 0.46 0 0.385 3.561 2.9 1.1296 1 187 12.6 0.32 1.73 5
下四分位数 0.082045 0 5.19 0 0.449 5.8855 45.025 2.100175 4 279 17.4 375.3775 6.95 17.025
中位数 0.25651 0 9.69 0 0.538 6.2085 77.5 3.20745 5 330 19.05 391.44 11.36 21.2
上四分位数 3.6770825 12.5 18.1 0 0.624 6.6235 94.075 5.188425 24 666 20.2 396.225 16.955 25
最大值 88.9762 100 27.74 1 0.871 8.78 100 12.1265 24 711 22 396.9 37.97 50

根据数据字段的基本统计信息,可以得出此数据集中所有的字段包含506个样本数,因此数据集不存在缺失值的情况。通过结合均值、标准差、最小值和下四分位数可以发现字段AGE最小值在2.9,但是均值达到68.6左右,因此可以后续用箱线图探究此字段中数值的合理性。同样,通过查看数据基本信息可以初步判断出其他字段的数据较为合理。

判断完字段的合理性之后对数据大致的波动性以及离散程度进行预估,其中字段CRIM,ZN,RAD,DIS的标准差高于或接近均值,可以看出以上字段的波动性较大,初步判断波士顿地区存在房源质量差距较大的现象,预测会有一些较为优质房源以及一些质量非常低的房源。因此,在后续进行可视化分析的时候着重定位优质房源。

3.平均房价直方图

读取数据集、查看各个字段的基本信息以及验证各个字段的数据合理性之后将具体分析该案例。由于此案例针对波士顿的房价,因此可以将重心定位在探究波士顿房价的影响因素,重点分析字段target

首先,通过绘制平均房价的直方图探究波士顿地区的房价的基本情况。

数据分析实战:城市房价分析,数据库,人工智能,数据分析,房价分析,机器学习

从该直方图中可以得知在波士顿地区18500美元的房价最多,集中分布在14000美元到23000美元,存在少量高房价房源。接下来可以通过绘制箱线图具体查看较高房价房源的情况。

4.平均房价箱线图

通过直方图分析完波士顿地区平均房价之后,接着通过箱线图查看字段target的最大值、最小值、四分位数以及异常点,目的是初步了解波士顿地区房价的具体分布情况并查看异常点的值。

数据分析实战:城市房价分析,数据库,人工智能,数据分析,房价分析,机器学习

5.自用房屋比例的箱线图

由于数据字段基本信息统计中字段AGE的数值相对较为异常,因此可以通过箱线图进一步验证该字段数据的合理性。

数据分析实战:城市房价分析,数据库,人工智能,数据分析,房价分析,机器学习

8 平均房间数与房价的散点图

想要探究影响这些波士顿房价异常高的原因,先进行假设房价异常高的直接影响因素是房间数较多,占地面积较大。为了证明这一假设数据分析实战:城市房价分析,数据库,人工智能,数据分析,房价分析,机器学习的准确性,将绘制数据集中字段RMtarget的散点图探究平均房间数与房价之间的相关性。

已知在波士顿地区,距离市中心的远近程度在很大程度上并不影响房屋的均价之后,将探究距离辐射公路是否影响房屋的均价。因此,通过绘制距离辐射公路与房价的散点图进行查看。

数据分析实战:城市房价分析,数据库,人工智能,数据分析,房价分析,机器学习文章来源地址https://www.toymoban.com/news/detail-813512.html

到了这里,关于数据分析实战:城市房价分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据库原理】(29)数据库设计-需求分析阶段

    需求分析就是调查、收集、分析、最后定义用户对数据库的各种要求。它是整个数据库设计的基础和出发点,其结果将直接影响后面各步的设计,甚至决定着最终设计的数据库的好坏与成败。为此,首先必须知道需求分析的任务是什么,以及采用什么样的方法进行需求分析。 这阶

    2024年01月17日
    浏览(57)
  • python毕业设计 大数据房价数据分析及可视化 房价分析

    房地产是促进我国经济持续增长的基础性、主导性产业。如何了解一个城市的房价的区域分布,或者不同的城市房价的区域差异。如何获取一个城市不同板块的房价数据? 本项目利用Python实现某一城市房价相关信息的爬取,并对爬取的原始数据进行数据清洗,存储到数据库中

    2024年02月09日
    浏览(46)
  • 计算机毕设 大数据房价数据分析及可视化 - python 房价分析

    房地产是促进我国经济持续增长的基础性、主导性产业。如何了解一个城市的房价的区域分布,或者不同的城市房价的区域差异。如何获取一个城市不同板块的房价数据? 本项目利用Python实现某一城市房价相关信息的爬取,并对爬取的原始数据进行数据清洗,存储到数据库中

    2024年02月15日
    浏览(42)
  • Python数据分析之读取Excel数据并导入数据库

    曾某年某一天某地 时间如静止的空气 你的不羁 给我惊喜 ——《谁愿放手》陈慧琳 入职新公司两个多月,发现这边的数据基础很差,很多数据甚至没有系统承载,大量的Excel表,大量的人工处理工作,现阶段被迫“面向Excel”编程。本文主要介绍使用Python读取Excel数据并导入

    2024年01月25日
    浏览(51)
  • 案例分析真题-数据库

    【问题1】 【问题2】 【问题3】 【问题1】 【问题2】 【问题3】 骚戴理解 :这里主要是要学会分析出题目中哪里用到了反规范化技术,主打的就是一个会分析! 【问题1】 【问题2】 【问题3】 【问题1】 【问题2】 骚戴理解 :这题第二小问,根据它给出的客户基本信息用关系

    2024年02月08日
    浏览(36)
  • 【数据库】sql优化有哪些?从query层面和数据库层面分析

    这类型问题可以称为:Query Optimization,从清华AI4DB的paper list中,该类问题大致可以分为: Query Rewriter Cardinality Estimation Cost Estimation Plan Optimization 从中文的角度理解那就是: 查询重写 基数估计 成本估计 执行计划优化 可以发现,这类型的优化问题,大多数从sql本身,或者说从

    2024年01月17日
    浏览(50)
  • Mysql Docker 容器重启后数据库数据丢失分析

    项目复用nacos的mysql数据库且msyql容器已存在,之前已新建好数据库并插入数据。本次需要更新数据库表结构和数据。重启myql导致数据库数据丢失。 另外,本次事故是昨天发生未及时记录,日志不够详细。 本次需要更新数据库表结构和数据,通过dbviewer操作失败报 异常,部分

    2024年02月01日
    浏览(52)
  • MPP数据库简介及架构分析

        MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。     MPP数据库是一款 Shared Nothing架构的分布式并行结构化数据库集群,具

    2024年02月02日
    浏览(37)
  • 面向海量异构数据分析的GBASE南大通用数据库

    GBaseBI V5是GBASE南大通用公司面向海量异构数据分析,以独特的语义映射和内存计算为基础,以“可视化”展示为重点的一款高性能数据分析平台;具备满足企事业单位对KPI指标监控、数据预测、数据预警、数据汇总和数据可视化展示等需求的能力。 GBaseBI V5整体采用B/S构架,

    2024年01月19日
    浏览(82)
  • 缓存和数据库一致性问题分析

    目录 1、数据不一致的原因 1.1 并发操作 1.2 非原子操作 1.3 数据库主从同步延迟 2、数据不一致的解决方案 2.1 并发操作 2.2 非原子操作 2.3 主从同步延迟 2.4 最终方案 3、不同场景下的特殊考虑 3.1 读多写少的场景 3.2 读少写多的场景 导致缓存和数据库数据不一致的原因有三个

    2024年02月14日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包