python对医疗数据进行分析,看看哪个年龄段最容易生病

这篇具有很好参考价值的文章主要介绍了python对医疗数据进行分析,看看哪个年龄段最容易生病。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

python对医疗数据进行分析,看看哪个年龄段最容易生病

什么是数据分析

明确目的–获得数据(爬虫,现有,公开的数据)–数据预处理——数据可视化——结论

python对医疗数据进行分析,看看哪个年龄段最容易生病

准备

环境使用:

在开始写我们的代码之前,我们要准备好运行代码的程序

  • Anaconda (python3.9)

    –> 识别我们写的代码

开发工具:

  • jupyter notebook

    –> 代码编辑功能敲代码的工具

不会安装的可以文末名片+我获取哦 😎

数据准备:

python对医疗数据进行分析,看看哪个年龄段最容易生病

代码展示

导入模块

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline  

加载字体

plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体

显示负号

plt.rcParams['axes.unicode_minus'] = False 
data = pd.read_csv('医疗数据.csv',engine='python')

python对医疗数据进行分析,看看哪个年龄段最容易生病

data.head()

python对医疗数据进行分析,看看哪个年龄段最容易生病

import missingno as msno 
msno.matrix(data)

RYQH(入院区划)存在85个(data.info())缺失值

data.RYQH[data.RYQH.isnull()] = data.JZQH[data.RYQH.isnull()]

年龄NL存在缺失值,运用众数补全,其实这里最好应该用患病种类的年龄的中位数来补全最好

data.NL.fillna(data['NL'].mode()[0],inplace=True)

性别XB有两条缺失值,直接拿众数补上

data.XB.fillna('女',inplace=True)

接下里做一些可视化分析

区域分布,这里的划分比较乱,需要把他们统一划分到镇或者街道,这个应该是临沂市的区划

qh_mapping = {'费县':'费县','兰山区':'兰山区','双堠镇':'沂南县','长城镇':'兰陵县','流峪镇':'平邑县','兰陵县':'兰陵县','夏蔚镇':'沂水县','四十里镇':'沂水县','沂水县':'沂水县','市本级':'市本级','郑城镇':'平邑县','山东省临沂市':'市本级','新庄镇':'费县','大兴镇':'临沭县','依汶镇':'沂南县','郯城县港上镇':'郯城县','温水镇':'平邑县','朱田镇':'费县','高新开发区':'高新区','上冶镇':'费县','姚店子镇':'沂水县','汤河':'河东区','临港产业区':'莒南县','孙祖镇':'沂南县','沂南县':'沂南县','圈里乡':'沂水县','平邑镇':'平邑县','郯城县马头镇':'郯城县','临沭县':'临沭县','莒南县':'莒南县','南桥镇':'兰陵县','高都街道办事处':'罗庄区','砖埠镇':'沂南县','青云镇':'临沭县','河东区':'河东区','湖头镇':'沂南县','车辋镇':'兰陵县','郯城县郯城镇':'郯城县','探沂镇':'费县','平邑县':'平邑县','费城镇':'费县','马庄镇':'费县','郯城县胜利乡':'郯城县','郯城县泉源乡':'郯城县','大仲村镇':'兰陵县','店头镇':'临沭县','郯城县马头镇高册':'郯城县','郯城县红花乡':'郯城县','下村乡':'兰陵县','郯城县':'郯城县','郯城县庙山镇':'郯城县','郯城县李庄镇':'郯城县','郯城县杨集镇':'郯城县','郯城县归昌乡':'郯城县','铜石镇':'平邑县','马站镇':'沂水县','杨庄镇':'沂水县','白彦镇':'平邑县','仲村镇':'平邑县','院东头镇':'沂水县','蒙山旅游区':'蒙阴县','大庄镇':'沂南县','玉山镇':'临沭县','许家湖镇':'沂水县','罗庄区':'罗庄区','诸葛镇':'沂水县','经济开发区':'经济开发区','郯城县重坊镇':'郯城县','泉庄镇':'沂水县','褚墩镇':'罗庄区','卞庄街道':'兰陵县','罗庄街道办事处':'罗庄区','马厂湖镇':'兰山区','临沭街道办':'临沭县','蒲汪镇':'沂南县','马牧池乡':'沂南县','地方镇':'平邑县','保太镇':'平邑县','富官庄镇':'沂水县','沂城街道办事处':'沂水县','高桥镇':'沂水县','沂堂镇':'罗庄区','临涧镇':'平邑县','张庄镇':'沂南县','卞桥镇':'平邑县','薛庄镇':'费县','曹庄镇':'临沭县','付庄街道办事处':'罗庄区','苏村镇':'沂南县','梁邱镇':'费县','磨山镇':'兰陵县','石门镇':'临沭县','兰陵镇':'兰陵县','黄山镇':'罗庄区','沙沟镇':'沂水县','丰阳镇':'平邑县','郑山街道办':'临沭县','武台镇':'平邑县','凤凰岭':'河东区','龙家圈镇':'沂水县','尚岩镇':'兰陵县','盛庄街道办事处':'罗庄区','新兴镇':'兰陵县','庄坞镇':'兰陵县','郯城县新村乡':'郯城县','向城镇':'兰陵县','岸堤镇':'沂南县','南张庄乡':'费县','胡阳镇':'费县','铜井镇':'沂南县','郯城县高峰头镇':'郯城县','大田庄乡':'费县','芦柞镇':'兰陵县','鲁城镇':'兰陵县','石井镇':'费县','汤头':'河东区','八湖':'河东区','矿坑镇':'兰陵县','神山镇':'兰陵县','联城':'蒙阴县','工业园':'工业园','辛集镇':'沂南县','相公':'河东区','郯城县花园乡':'郯城县','蛟龙镇':'临沭县','册山街道办事处':'罗庄区','郑旺':'河东区','蒙阴县':'蒙阴县','罗西办事处':'高新区','郯城县沙墩镇':'郯城县','太平':'河东区','青驼镇':'沂南县','界牌':'蒙阴县','高庄镇':'沂水县','金岭镇':'兰陵县','岱崮':'蒙阴县','崔家峪镇':'沂水县','蒙阴街道':'蒙阴县','高新区区直社区':'高新区','九曲':'河东区','桃墟':'蒙阴县','旧寨':'蒙阴县','垛庄':'蒙阴县','高都':'罗庄区','野店':'蒙阴县','道托镇':'沂水县'}
data['QH'] = data['RYQH'].map(qh_mapping)

图像基本设置

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
fig = plt.figure(figsize=(12,8))
plt.bar(range(16),data.QH.value_counts(),color='purple',alpha=0.4)
plt.xlim(-1,16)
plt.title('人员区划统计')
for x,y in enumerate(data.QH.value_counts()):
    plt.text(x,y+100,y,ha='center')
plt.xticks(range(16),['兰山区','罗庄区','平邑县','莒南县','市本级','临沭县','沂水县','兰陵县','郯城县','费县','沂南县','高新区','河东区','蒙阴县','经济开发区','工业园'],rotation=30);

python对医疗数据进行分析,看看哪个年龄段最容易生病

病患主要集中在兰山区和罗庄区、平邑区,这几个区的常驻人口多

对就诊区划做同样处理

data['JZ'] = data['JZQH'].map(qh_mapping)
fig = plt.figure(figsize=(12,8))
plt.bar(range(14),data.JZ.value_counts(),color='purple',alpha=0.4)
plt.xlim(-1,14)
plt.title('就诊区划统计')
for x,y in enumerate(data.JZ.value_counts()):
    plt.text(x,y+100,y,ha='center')
plt.xticks(range(14),['兰山区','市本级','罗庄区','平邑县','莒南县','沂水县','临沭县','兰陵县','郯城县','沂南县','费县','河东区','蒙阴县','高新区'],rotation=30);

python对医疗数据进行分析,看看哪个年龄段最容易生病
python对医疗数据进行分析,看看哪个年龄段最容易生病
男性病患相对女性更多,但两者接近相同数量级

fig = plt.figure()
box =plt.boxplot([data.NL[data.XB=='男'],data.NL[data.XB=='女']],whis=1.5,
patch_artist=True,
labels = ['男','女'], # 添加具体的标签名称
showmeans=True,
boxprops = {'color':'black','facecolor':'#9999ff'},
flierprops = {'marker':'o','markerfacecolor':'red','color':'black'},
meanprops = {'marker':'D','markerfacecolor':'indianred'},
medianprops = {'linestyle':'--','color':'orange'});
plt.text(0.8,data[data.XB=='男'].NL.quantile([0.25]).iloc[0],data[data.XB=='男'].NL.quantile([0.25]).iloc[0])
plt.text(0.8,data[data.XB=='男'].NL.quantile([0.75]).iloc[0],data[data.XB=='男'].NL.quantile([0.75]).iloc[0])
plt.text(1.8,data[data.XB=='女'].NL.quantile([0.25]).iloc[0],data[data.XB=='女'].NL.quantile([0.25]).iloc[0])
plt.text(1.8,data[data.XB=='女'].NL.quantile([0.75]).iloc[0],data[data.XB=='女'].NL.quantile([0.75]).iloc[0])
plt.title('分性别的年龄箱线图')

python对医疗数据进行分析,看看哪个年龄段最容易生病

男性和女性的年龄分布比较相近,患者的年龄主要集中在44/45-70岁之间

python对医疗数据进行分析,看看哪个年龄段最容易生病

import squarify
fig = plt.figure(figsize=(10,8))
plot = squarify.plot(sizes = dd.ZDMC, # 指定绘图数据
                     label = dd[dd.ZDMC>30]['index'], # 指定标签
                     alpha = 0.6, # 指定透明度
                     value = dd[dd.ZDMC>30]['ZDMC'], # 添加数值标签
                     edgecolor = 'white', # 设置边界框为白色
                     linewidth =3 # 设置边框宽度为3
                    )

python对医疗数据进行分析,看看哪个年龄段最容易生病

支气管肺炎、肺炎、急性支气管炎、发热、急性上呼吸道感染、儿童孤独症是低龄儿童常见疾病,主要是呼吸道疾病

data.ZFY.quantile([0.25,0.75,0.9,0.95])

python对医疗数据进行分析,看看哪个年龄段最容易生病

从费用的分布上来看,医疗费用75%都在1474元,90%在3766元以下

python对医疗数据进行分析,看看哪个年龄段最容易生病

python对医疗数据进行分析,看看哪个年龄段最容易生病
python对医疗数据进行分析,看看哪个年龄段最容易生病
20岁到40岁的女性患病数量高于男性,男女性均在60-80岁患病数量较高

fig = plt.figure(figsize=(15,7))
plt.bar(range(15),data.YLLB.value_counts().sort_index())
plt.xticks(range(15),['住院前急诊','单病种住院','大病购药','无责任人意外伤害','普通住院','普通门诊','机关事业单位生育住院','特殊疾病门诊','生育住院','转省内住院','转省内门诊慢性病','转省外住院','转省外门诊慢性病','转省平台住院','门诊慢性病'],rotation=30)
for x,y in enumerate(data.YLLB.value_counts().sort_index()):
    plt.text(x,y+100,y,ha='center')

python对医疗数据进行分析,看看哪个年龄段最容易生病

fig = plt.figure(figsize=(15,7))
plt.bar(range(6),data.RYLB.value_counts().sort_index())
plt.xticks(range(6),['在职类型1','在职类型2','居民','离休','退休类型1','退休类型2']);

python对医疗数据进行分析,看看哪个年龄段最容易生病

python对医疗数据进行分析,看看哪个年龄段最容易生病

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

python对医疗数据进行分析,看看哪个年龄段最容易生病

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇文章来源地址https://www.toymoban.com/news/detail-435478.html

到了这里,关于python对医疗数据进行分析,看看哪个年龄段最容易生病的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python带你对北京二手房进行数据分析,看看大概都什么价位

    嗨喽~大家好呀,这里是魔王呐 ❤ ~! 今天我们的目的想必大家看标题就能明白了~ 首先,我们要提前准备好数据 然后打开我们的数据分析工具: Jupyter 导入模块 数据处理 1.读取数据 导入数据 设置编码 encoding=\\\'gbk\\\' 设置解释器为 engine=\\\'python\\\' 2.查看表格数据描述 describe 可以直接

    2024年02月10日
    浏览(48)
  • SQL8 查找某个年龄段的用户信息

    题目:现在运营想要针对20岁及以上且23岁及以下的用户开展分析,请你取出满足条件的设备ID、性别、年龄。 用户信息表:user_profile id device_id gender age university province 1 2138 male 21 北京大学 Beijing 2 3214 male 复旦大学 Shanghai 3 6543 female 20 北京大学 Beijing 4 2315 female 23 浙江大学 Zh

    2024年02月09日
    浏览(38)
  • Python采集双色球历史开奖信息,看看哪个号中奖概率更大

    前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 知识点: 爬虫基本流程 requests的使用 动态数据抓包 开发环境: 解释器: python 3.8 编辑器: pycharm 2022.3 requests pip install requests 第三方模块安装: win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像

    2024年02月12日
    浏览(48)
  • 毕业设计:python医疗数据分析可视化系统 医疗大数据 Flask框架 用户画像(源码)✅

    博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久,选择我们就是选择放心、选择安心毕业✌感兴趣的可以先收藏起来,点赞、关注不迷路✌ 毕业设计:2023-2024年计算机毕业设计1000套(建议收藏)

    2024年04月16日
    浏览(32)
  • Matlab vs Python:哪个更适合数据分析和可视化?

    当谈到数据分析和可视化时,许多人会思考使用哪种编程语言来实现这一目标。在IT行业,最流行的两种编程语言是Matlab和Python。这两种语言都有广泛的应用,但是对于初学者来说,选择哪种语言可能会有些困难。在本文中,我们将比较Matlab和Python这两种编程语言的优缺点,

    2024年02月05日
    浏览(42)
  • 看看别人是如何进行大数据测试的?

    前言:我之前是做大数据测试的,熟悉我的小伙伴应该都知道,前面我写过两篇文章《什么是大数据测试?》、《怎么进行大数据测试?我们需要具备怎样的测试能力?》,当然,这篇文章我对大数据测试介绍的比较笼统,所以今天我在详细补充一下,主要是看看别人是如何

    2023年04月08日
    浏览(34)
  • 从数据角度分析年龄与NBA球员赛场表现的关系【数据分析项目分享】

    好久不见朋友们,今天给大家分享一个我自己很感兴趣的话题分析——NBA球员表现跟年龄关系到底大不大?数据来源于Kaggle,感兴趣的朋友可以点赞评论留言,我会将数据同代码一起发送给你。 美国国家篮球协会(NBA)中有各个年龄段的新秀和资深球员。本次数据分析将突出年

    2024年01月21日
    浏览(77)
  • 快看看看常用手机cpu哪个牌子好

    目前市面上流行的手机CPU有苹果的A系列、联发科的Kirin、高通的骁龙、三星的Exynos、以及联发科推出的展讯的Helio等,每种CPU都有它的优势和劣势,可以根据自身需求选择。 苹果A系列是目前性能最强的手机CPU,特别适合游戏开发,拥有非常强大的计算能力和流畅的操作体验。

    2024年02月09日
    浏览(45)
  • 看看 ChatGPT 和文心一言哪个更好用?

    ChatGPT和文心一言分别适用于不同的领域,具体取决于它们的功能和优势。 ChatGPT适用于多个领域,其中最常见的包括: 对话系统:ChatGPT具有出色的自然语言处理能力,可以用于构建各种类型的对话系统,如客服机器人、智能助手等。这些系统可以自动回答用户的问题、提供

    2024年01月22日
    浏览(55)
  • ai绘画软件哪个好?一起来看看这些软件吧

    你是否曾经为了让你的文字更加生动有趣而苦恼?或者你是否希望将你的文字变成独特的图片来吸引更多的人关注?文字转图片软件可以帮你实现这个愿望!这个神奇的工具能将文字转化为美丽的图片,它可以让文字更有生命力,还可以为你的内容增添更多的亮点。你知道文

    2024年02月11日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包