Python对职业人群体检数据进行分析与可视化(附源码 超详细)

这篇具有很好参考价值的文章主要介绍了Python对职业人群体检数据进行分析与可视化(附源码 超详细)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

职业人群体检数据分析

有的职业危害因素会对人体血液等系统产生影响。下面针对一次职业人群体检的部分数据进行分析

实现步骤如下

1:导入模块

2:获取数据

导入待处理数据testdata.xls并显示前五行

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

3:分析数据

首先查看数据类型 表结构 并统计各个字段空缺值的个数

 获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

 获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

 获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

接下来删除全为空的列以及身份证号为空的数据

删除全为空的列

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

函数作用:删除含有空值的行或列¶

axis:维度,axis=0表示index行,axis=1表示columns列,默认为0

how:"all"表示这一行或列中的元素全部缺失(为nan)才删除这一行或列,"any"表示这一行或列中只要有元素缺失,就删除这一行或列

thresh:一行或一列中至少出现了thresh个才删除。

subset:在某些列的子集中选择出现了缺失值的列删除,不在子集中的含有缺失值得列或行不会删除(有axis决定是行还是列)

inplace:刷选过缺失值得新数据是存为副本还是直接在原数据上进行修改

 删除身份证号为空的数据

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

 将“开始从事某工作年份”规范为4位数字年份,如“2018”,并将列名修改为“参加工作时间

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

增加列“工龄”(体检年份-参加工作时间)和“年龄”(体检时间-出生年份)两列

查看待处理是否有缺失值 然后删除所有缺失值 

然后可以看到参加工作时间之一列的缺失值已经删除,同时也看到体检年份还有38个缺失值 也进行删除

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

 身份证号,参加工作时间以及体检年份的数据类型都是object,需要进行类型转换,统一转化为int64类型,另外,体检年份这一列有很多异常数据,很多年份后都有年字,对体检年份数据进行时间提取

增加工龄和年龄这两列

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

统计不同性别的白细胞计数均值 并画出柱状图

 获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

 统计不同年龄段的白细胞计数,并画出柱状图,年龄段划分为:小于或等于30岁,31-40岁,41-50岁以及大于50岁4个

获取数据导入待处理数据test data点xls,数据分析与可视化,python,数据分析,matplotlib,pandas,信息可视化

 经过上面这一系列工作,可以很清楚的看出数据的一些分布特征 有助于后续的解决方案

代码

部分代码如下 需要全部代码请点赞关注收藏后评论区留言私信~~~

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
%matplotlib inline
df = pd.read_excel("testdata.xls")#这个会直接默认读取到这个Excel的第一个表单
data =df.head()#默认读取前5行的数据
data
df.info()
df.dtypes
df.shape
df.isnull().sum()

df.dropnaaxis=1, how='all',inplace= True)#将全部项都是nan的列删除
df.head()
df.dropna(how='any',subset=['身份证号'],inplace= True)
df.isnul().sum()
df1 = df
df.shape
df.开始从事某工作年份 = df.开始从事某工作年份.str[0:4]
df.rename(columns={"开始从事某工作年份": "参加工作时间"},inplace=True)
df.head()

df.isnull().sum()
df1 = df.dropna(subset=['参加工作时间'],how='any')
df1.isnull().sum()
df1.isnull().sum()
df2 = df1.dropna(subset=['体检年份'],how='any')
# ()
df2.isnull().sum()
#参加工作时间转换为int64类型
#首将体检年份转换为str类型
data['体检年份'] = data.体检年份.astype('str')
#切片取前4位值之后再将体检年份转换为int64类型
data.体检年份 = data.体检年份.str[0:4].astype("int64")
#取身份证的第4位-第7位,并转换为int64类型
data["出生年份"] = data.身份证号.str[4:8].astype('int64')
d.head()
data.参加工作时间 = data.参加工作时间.astype('int64')
data['体检年份'] = data.体检年份.astype('str')
data.体检年份 = data.体检年份.str[0:4].astype("int64")
data["出生年份"] = data.身份证号.str[4:8].astype('int64')
data.head()
data = data.eval('工龄 = 体检年份-参加工作时间')
data = data.eval("年龄= 体检年份- 出生年份")
data.head()

import matplotlib
matplotlib.rcParams['font.size'] = 15
matplotlib.rcParams['font.family'] = 'SimHei'

# mean.plot(kind='bar') #series.plot(kind='bar')
mean.plot.bar()
plt.xticks(rotation=0)
plt.ylabel("白细胞均值")
data['年龄段'] = pd.cut(data.年龄, bins=[0,30,40,50, 100])
count = data.groupby('年龄段')['白细胞计数'].mean()
count

count.plot(kind = "bar")
plt.xticksotation=30)
plt.ylabel("白细胞计数均值")

创作不易 觉得有帮助请点赞关注收藏~~~文章来源地址https://www.toymoban.com/news/detail-780676.html

到了这里,关于Python对职业人群体检数据进行分析与可视化(附源码 超详细)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 用Python分析周杰伦歌曲并进行数据可视化

    大家好,今天我们用python分析下周杰伦歌曲。为了尽量完整地呈现从原始数据到可视化的过程,接下来我们会先简单讲解数据的预处理过程,即如何将 JSON 数据转化为Excel 格式,以及如何对周杰伦的歌曲进行分词。 本案例中的歌词数据来自中文歌词数据库,这个数据库提供了

    2023年04月26日
    浏览(32)
  • 【毕业设计】基于大数据的招聘职业爬取与分析可视化

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2023年04月08日
    浏览(56)
  • 毕业设计项目 基于大数据的招聘职业爬取与分析可视化

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年03月23日
    浏览(39)
  • Python通过pyecharts对爬虫房地产数据进行数据可视化分析(一)

    对Python通过代理使用多线程爬取安居客二手房数据(二)中爬取的房地产数据进行数据分析与可视化展示 我们爬取到的房产数据,主要是武汉二手房的房源信息,主要包括了待售房源的户型、面积、朝向、楼层、建筑年份、小区名称、小区所在的城区-镇-街道、房子被打的标

    2024年02月07日
    浏览(46)
  • 【Python】实现爬虫(完整版),爬取天气数据并进行可视化分析

    ✌️✌️✌️大家好呀,你们的作业侠又轰轰轰的出现了,这次给大家带来的是python爬虫,实现的是爬取某城市的天气信息并使用matplotlib进行图形化分析✌️✌️✌️ 要源码可私聊我。 大家的关注就是我作业侠源源不断的动力,大家喜欢的话,期待三连呀😊😊😊 往期源码

    2024年02月05日
    浏览(41)
  • 使用Python获取建筑网站数据,进行可视化分析,并实现网站JS解密!

    哈喽兄弟们,今天来实现一下建筑市场公共服务平台的数据采集,顺便实现一下网站的JS解密。 话不多说,我们直接开始今天的内容。   首先我们需要准备这些 环境使用 Python 3.8 Pycharm 模块使用 requests -- pip install requests execjs -- pip install PyExecJS json 爬虫基本流程思路 一. 数据

    2024年02月08日
    浏览(41)
  • Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化

    简介 Python 的 pandas 包用于数据操作和分析,旨在让您以直观的方式处理带标签或关联数据。 pandas 包提供了电子表格功能,但由于您正在使用 Python,因此它比传统的图形电子表格程序要快得多且更高效。 在本教程中,我们将介绍如何设置一个大型数据集, pandas 的 groupby() 和

    2024年02月19日
    浏览(42)
  • Python利用线性回归、随机森林等对红酒数据进行分析与可视化实战(附源码和数据集 超详细)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 下面对天池项目中的红酒数据集进行分析与挖掘 1:导入模块 2:颜色和打印精度设置 3:获取数据并显示数据维度 字段中英文对照表如下   然后利用describe函数显示数值属性的统计描述值  显示quality取值的相关信息 显示

    2023年04月13日
    浏览(48)
  • 面向人群属性关系挖掘的数据可视化———基于美国人口adult数据集

    目录 面向人群属性关系挖掘的数据可视化 一、课程设计内容及目的 二、总体设计 (一)题目需求分析 (二)系统整体流程图或组成框图 三、详细设计 (一)读取数据并导入需要的第三方库 (二)通过判断每个属性的取值范围来估计属性及其类型 (三)除去数据值前的空

    2024年02月10日
    浏览(40)
  • 【数据挖掘与人工智能可视化分析】可视化分析:如何通过可视化技术进行数据挖掘和发现

    作者:禅与计算机程序设计艺术 数据挖掘(Data Mining)和人工智能(Artificial Intelligence,AI)已经成为当今社会热点话题。这两者之间的结合也带来了很多挑战。作为数据科学家、机器学习工程师、深度学习研究员等,掌握了数据的获取、清洗、处理、建模、应用这些技术的前提下,

    2024年02月07日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包