Python案例实现|租房网站数据表的处理与分析

这篇具有很好参考价值的文章主要介绍了Python案例实现|租房网站数据表的处理与分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Python案例实现|租房网站数据表的处理与分析,Python,python,开发语言,原力计划

 在综合实战项目中,“北京链家网”租房数据的抓取任务已在 上一篇 完成,得到了数据表bj_lianJia.csv,如图1所示。该数据表包含ID、城区名(district)、街道名(street)、小区名(community)、楼层信息(floor)、有无电梯(lift)、面积(area)、房屋朝向(toward)、户型(model)、房租(rent)等信息。

Python案例实现|租房网站数据表的处理与分析,Python,python,开发语言,原力计划

■ 图1 “北京链家网”租房数据表的部分数据展示

01、案例实现

本节将任务进行如下分解。

(1) 重复行的处理:删除重复行。

(2) 缺失值的处理:数据表中lift和rent列有缺失值,分别采用不同的缺失值处理方式。

(3) 内容格式清洗。

① 将area列的“m2”删掉,这样area列的数据变为数值型,方便后面的数据分析。

② 将toward列中字符间的空格删掉,例如删掉“南 北”中的空格,变为“南北”。

③ 将model列的内容格式转换为“*室*厅*卫”,例如“2房间1卫”转换为“2室0厅1卫”。

(4) 属性重构造:从floor列中分离出总楼层,形成一个新列,命名为“totalfloor”,例如“中楼层/6层”分离出总楼层“6”。

(5) 对房租rent列数据进行统计分析。

以上任务的实现步骤及代码如下。

(1) 导入库。其中re库为正则表达式库,是Python的标准库,主要用于字符串匹配。代码如下。

import pandas as pd
import re

 (2) 读入数据。使用Pandas库的read_csv()方法读入“北京链家网”的租房数据集bj_lianJia.csv,其中,header=0表示数据表的第一行作为列名,usecols参数值表示使用数据表中列号为1~9的数据,也就是不使用列号为0的“ID”这一列数据。读入的数据列分别是:楼层(floor)、有无电梯(lift)、城区名(district)、街道名(street)、小区名(community)、面积(area)、房屋朝向(toward)、户型(model)、房租(rent)。代码如下。

df=pd.read csv('bj lianJia.csv', encoding='gbk', header=0,usecols=[1,2,3,4
5,6,7,8,9])
print(df)

输出结果为:

            floor      lift   district     ...        model       
0         中楼层/6层     无       房山      ...     2室2厅1卫   
1         低楼层/17层    有       顺义      ...     3室1卫
2         中楼层/6层     无       大兴      ...     2室1厅1卫
...
4338      高楼层/28层    有       朝阳      ...     2室1厅1卫
4339      低楼层/2层     有       怀柔      ...     5室2厅5卫
4340      低楼层/4层     无       通州      ...     4室2厅3卫

(3) 重复值处理。首先检测有无重复行,使用Pandas库的duplicated()方法。如果存在重复的行,使用drop_duplicates()方法删除这些重复行。代码如下。

print ('----检测有无重复行----')
print(len(dfldf.duplicated()]))  # 原地修改 df
df.drop duplicates(inplace=True)print('----打印删除重复行后 df 的行数----)
print(len(df))

输出结果为:

- ---检测有无重复行- 
15
----打印删除重复行后 df 的行数----
4326

(4) 缺失值处理。首先统计含有缺失值的列及数量。代码如下。

print ('----未做缺失值处理之前----'!)
print(df.isnul1() .sum())

输出结果为:

----未做缺失值处理之前---
floor       0
lift        8
district    0
street      0
community   0
area        0
toward      0
mode1       0
rent        4
dtype: int64

 可以看出,lift列有8个缺失值,rent列存在4个缺失值,分别采取不同的方法对缺失值进行处理:使用填充法,将lift列的缺失值填充为固定值“未知”;使用删除法,对rent列有缺失值的行进行直接删除处理。代码如下。

print ('----将 lift 列的缺失值填充为"未知"---')
df['lift'].fillna('未知’,inplace=True)
print(df.isnul1() .sum())
print ('----将 rent 有缺失值的行直接删除----')
df.dropna(subset=['rent'],inplace=True)
print(df.isnull() .sum() )
print(len(df))   # 输出删除缺失值后 df 的行数

输出结果为:

----将lift列的缺失值填充为“未知”---
floor       0
lift        0
district    0
street      0
community   0
area        0
toward      0
mode1       0
rent        4
dtype: int64

----将rent列有缺失值的行直接删除---
floor       0
lift        0
district    0
street      0
community   0
area        0
toward      0
mode1       0
rent        0
dtype: int64
4322

删除带缺失值的行后,此时DataFrame不再是连续的索引,可以使用reset_index()方法重置索引。代码如下。

df=df .reset index(drop=True)
print(df)

输出结果为:

            floor      lift   district     ...        model       
0         中楼层/6层     无       房山      ...     2室2厅1卫   
1         低楼层/17层    有       顺义      ...     3室1卫
2         中楼层/6层     无       大兴      ...     2室1厅1卫
...
4319      中楼层/8层     有       朝阳      ...     3室1厅1卫
4320      高楼层/28层    有       朝阳      ...     2室2厅1卫
4321      低楼层/2层     无       怀柔      ...     5室2厅5卫
[4322 rows x 9 columns]

(5) 内容格式清洗。

① 将area列的“m2”删掉。首先使用正则表达式库re的findall()方法将数据表中area列的数字提取出来,这时得到的area列表中的数据舍弃了“m2”,然后再将area列表的数据写回数据表中。代码如下。

area= re.findall('d+. d+',a) for a in df 'area'].values.tolist()]
df['area']=[i for jin range(len(area)) for i in arealj]]
print(df.loc[:5,'area'])

输出结果为:

0     85.00
1     107.00
2     72
3     71.13
4     54.41
5     132.00
Name: area,dtype: object

② 将toward列中字符间的空格删掉。这里用到了Series 对象的替换方法str.replace(),语法格式为series对象sr.replace(pat,repl),其中,参数pat表示要替换的字符串,repl表示新字符串。在下面的代码中,df['toward']得到的数据类型为Series类型,在replace()方法中,要替换的字符串使用了正则表达式'\\s+',其含义是匹配任意多个空格,被替换的新字符串为空字符串,所以使用replace()方法将查找到的空格替换成空串,即删除了空格。代码如下。

print(df.loc[:5,'toward'])
df['toward']=df['toward'].str.replace('\s+',')

输出结果为:

0  南北
1  南
2  南北
3  东
4  东
5  南北
Name: toward,dtype: object

 ③ 将model列的内容格式转换为“*室*厅*卫”。由于原始数据表中户型model的取值为3室2厅1卫或2房间1卫形式,还有少数取值为“未知室1厅1卫”,户型的表现形式不统一,现将其统一为“*室*厅*卫”,转换规则是:房间表示为室,没有给出厅数目表示为0厅,未知室表示为0室。代码如下。

print ("----首先将 model 列中'未知·替换为'0'----")
dff=dfLdfl'model'].str.contains('未知)==True]
print'替换前:\n',dff)
df.loc[dff.index,'model =dffl'model'].str.replace('未知',0')
print('替换后:\n',df.loc dff.index])
print("----然后将 model 列统一为¥室¥厅*卫----")
model_n=_re.findall('d+',m) for m in dfl'model'] .values.tolist()]
new model=list()
for m in model n:
if len(m)==3:
new model.append(m[0]+'室'+m[1]+厅'+m[2]+'卫')
elif len(m)==2:
new model.append(m[o] +室'+0厅'+m[1]+卫')
dfl'model =new model
print(df.loc[:5,'model'])

输出结果为:

----首先将 model 列中·未知,替换为 0'----
替换前:
             floor      lift   district   ...     model         rent  
3964      低楼层/25层    有       海淀     ...   未知室 1厅1卫   38000.0
[1 rows x 9 columns]
替换后:
             floor      lift   district   ...     model         rent  
3964      低楼层/25层    有       海淀     ...   0室0厅0卫       38000.0
[1 rows x 9 columns]
----然后将 model 列统一为*室*厅*卫----
rent
38000.0
0    2室1厅1卫
1    3室0厅1卫
3    3室0厅2卫
4    2室1厅1卫
5    3室2厅2卫
Name: model,dtype: object

(6) 属性重构造:从floor列中分离出总楼层,形成一个新列。这里使用了字符串分割方法split(),该方法通过指定分隔符对字符串进行切分,返回分割后的字符串列表,例如“中楼层/6层”被split()方法通过分隔符“/”切分为['中楼层','6层']。然后将楼层写回到df['floor']中,将总楼层中的数字使用slice()方法提取出来,写入df['totalfloor']。代码如下。

dff=df['floor'].str.split('/',expand=True)
df['floor =dff 0]
df['totalfloor']=dff[1].str.slice(0,-1,1)
print(df.loc[:5,['floor','totalfloor']])

 输出结果为:

     floor     totalfloor
0    中楼层         6
1    低楼层         17
2    中楼层         6
3    中楼层         8
4    中楼层         4
 

(7) 对房租rent列数据进行统计分析。

(8) 保存处理后的数据。代码如下。文章来源地址https://www.toymoban.com/news/detail-617126.html

df.to csv('newbj lianJia.csv',encoding='gbk',index label='ID')

到了这里,关于Python案例实现|租房网站数据表的处理与分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MySQL 处理大数据表的 3 种方案,写的太好了,建议收藏!!

    作者:马佩 链接:https://juejin.cn/post/7146016771936354312 当我们业务数据库表中的数据越来越多,如果你也和我遇到了以下类似场景,那让我们一起来解决这个问题 数据的插入,查询时长较长 后续业务需求的扩展 在表中新增字段 影响较大 表中的数据并不是所有的都为有效数据 需

    2023年04月17日
    浏览(27)
  • 实现一个MYSQL工具类,包含判断创建数据表是否存在,创建数据表

    可以使用Python的MySQLdb模块来实现一个MYSQL工具类。下面是一个简单的实现示例: 使用示例: 在上面的示例中,我们首先创建了一个MySQLTool类,并在初始化方法中传入了数据库的连接信息。然后使用connect方法连接到数据库。 table_exists方法用于判断给定的数据表是否存在,它执

    2024年01月15日
    浏览(39)
  • 用户案例 | 蜀海供应链基于 Apache DolphinScheduler 的数据表血缘探索与跨大版本升级经验

    蜀海供应链是集销售、研发、采购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企业。2021年初,蜀海信息技术中心大数据技术研发团队开始测试用DolphinScheduler作为数据中台和各业务产品项目的任务调度系统工具。本文主要分享了蜀海供应链在海豚早期旧

    2024年02月10日
    浏览(31)
  • 用Python做数据分析之生成数据表

    第一部分是生成数据表,常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据。 Excel 中的文件菜单中提供了**外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。 获取外部数据 python支持从多种类型的数据导入。在开始使用 python 进行数据导

    2024年01月17日
    浏览(28)
  • 用Python做数据分析之数据表清洗

    对数据表中的问题进行清洗。主要内容包括对空值,大小写问题,数据格式和重复值的处理。这里不包含对数据间的逻辑验证。 处理空值(删除或填充) 我们在创建数据表的时候在 price 字段中故意设置了几个 NA 值。对于空值的处理方式有很多种,可以直接删除包含空值的数据

    2024年01月16日
    浏览(33)
  • Python实战之数据表提取和下载自动化

    在网络爬虫领域,动态渲染类型页面的数据提取和下载自动化是一个常见的挑战。本文将介绍如何利用Pyppeteer库完成这一任务,帮助您轻松地提取动态渲染页面中的数据表并实现下载自动化。 一、环境准备 首先,确保您已经安装了Python环境。接下来,我们需要安装 pyppeteer

    2024年02月11日
    浏览(29)
  • 【Python】导入Excel数据表的几种方式

    如何导入csv、xlsx格式的Excel; 一张数据表里有多个sheet页,如何获取所有sheet页名字,并导入每张sheet页; 1. 导入CSV格式的Excel表: 2. 导入xlsx格式的Excel表: 如果Excel表里只有一个sheet页: 如果Excel表里有多个sheet页: 如果Excel表里sheet页过多:

    2024年02月03日
    浏览(38)
  • python3使用pandas备份mysql数据表

    操作系统 :CentOS 7.6_x64 Python版本:3.9.12 MySQL版本:5.7.38 日常开发过程中,会遇到mysql数据表的备份需求,需要针对单独的数据表进行备份并定时清理数据。 今天记录下python3如何使用pandas进行mysql数据表的备份,我将从以下几个方面进行展开:  数据表备份逻辑描述  使用的

    2024年02月05日
    浏览(26)
  • Python Flask Web开发三:数据表的字段增加和删除

    在实际的开发中,数据表中的字段的增加和删除是很正常的操作,在运营的不断提需求下,这个修改的频率是很高的,那么在flask中如何进行字段的增加和删除呢?下面我来给大家讲讲 使用数据库迁移工具(如 Flask-Migrate等)创建一个新的迁移脚本。这个脚本将包含对数据库

    2024年02月09日
    浏览(31)
  • python 读取文件夹下子文件夹下的csv数据表

    可以使用 Python 中的  os  和  csv  模块来读取文件夹下的文件夹的 csv 数据。具体的步骤如下: 导入  os  和  csv  模块。 使用  os  模块的  listdir  函数列举出目标文件夹下的所有子文件夹的名称。 对于每个子文件夹,列举出其中的所有 .csv 文件的名称,并逐一读取 csv

    2024年02月11日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包