[数据分析实战]对比用Excel和Python用来做数据分析的优缺点,用Python的Pandas操作Excel数据表格原来如此简单?还不赶紧学起来?

这篇具有很好参考价值的文章主要介绍了[数据分析实战]对比用Excel和Python用来做数据分析的优缺点,用Python的Pandas操作Excel数据表格原来如此简单?还不赶紧学起来?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

首先,我先总结一下用Excel和Python用来做数据分析的优缺点

Excel做数据分析的优点:

Excel做数据分析的缺点:

Python做数据分析的优点:

Python做数据分析的缺点:

1.展示本例子中使用的数据

2.开始动手

一、导入数据以及理解数据部分 

1.1查看数据维度(行列)

2.2.查看数据格式

 1.3指定一列查看:

1.4查看统计信息

1.5查看列名称

二、数据清洗部分 

2.1删除缺失值

Excel做法:

 Python做法

 2.2使用fillna函数把空值用0填充

2.3更改列名称

2.4删除重复值

Excel做法:

Python做法:

2.5分列 

Excel做法:

Python做法:

2.6将完成分列后的数据表与原数据表进行匹配

 2.7删除列

Excel做法

Python做法:

 2.8修改日期格式

Excel做法:

Python做法:

 2.9排序

 2.10重命名行名

​编辑 2.11 删除异常值


首先,我先总结一下用Excel和Python用来做数据分析的优缺点

老话说知己知彼才能百战不怠,我们先把两者的优缺点分析好,就会知道什么场景下该用Excel,什么场景下该用Python,如果不想看的小伙伴可以直接跳转到操作部分

Excel做数据分析的优点:

  1. 易用性:Excel是一个广泛使用和易学习的工具,几乎每个人都能够使用它来进行基本的数据处理和分析。

  2. 快速分析:Excel提供了一系列图表和函数,可以快速分析数据并获得结果。

  3. 适合小规模数据处理:如果数据集比较小,Excel可以轻松地处理这些数据。Excel还可以使用筛选器、排序和分组等功能来进一步细化分析。

  4. Excel扩展性强:Excel支持VBA编程,用户可以通过编写宏程序来进一步扩展其功能。

  5. 可视化功能强大:Excel内置的绘图功能非常强大,可以快速绘制各种图表和统计图。

Excel做数据分析的缺点:

  1. 处理大型数据集:在处理大型数据集时,Excel的性能表现会受到限制。Excel可能会崩溃或运行缓慢。

  2. 数据不规范:如果数据有问题或不规范,Excel很难对其进行处理。例如,在字符分割方面,Excel的能力很有限。

  3. 数据安全性:Excel中的数据安全性较差,如果数据需要经常共享或与其他人交换,则需要使用诸如密码保护等其他技术来保护数据。

  4. 扩展性:Excel对于扩展性的支持比较有限,仅支持VBA宏编程。

Python做数据分析的优点:

  1. 处理庞大数据集:Python在处理大型数据集方面比Excel更有效率。numpy和pandas库针对大型数据集提供了高效的处理和存储技术。

  2. 灵活性更强:Python语言本身非常灵活,可以执行更多的数据处理和分析操作。Python还支持大量的第三方库,例如matplotlib和seaborn用于可视化,scikit-learn用于机器学习等,可以满足不同数据分析需求。

  3. 自动化:Python可以实现自动化数据分析过程,能够大幅度提高数据分析的效率和准确性。可以通过编写Python程序来自动化执行数据读取、清洗、转换和建模等操作。

  4. 代码管理:Python代码可以集成到版本控制工具中,使代码管理变得更加容易。这对于多人协作的情况非常有帮助。

  5. 开放源代码社区支持:Python拥有一个庞大的开放源代码的社区,这个社区为Python用户提供了丰富的支持、文档和示例。

Python做数据分析的缺点:

  1. 上手难度:相较于Excel,Python学习曲线较高,需要具备一定的编程基础。

  2. 可视化难度:尽管Python有很多数据可视化库,但与Excel的可视化工具相比,它们可能需要更多的代码和操作。

  3. 缺少Excel的特定功能:Excel还有一些Python不太适用(或没有)的具体功能,例如共享文档的实时转发、权限控制等。

  4. 计算机配置:Python处理大型数据集需要计算机配置较高。需要更大的内存空间来容纳数据,更快的处理器来加速运算。

我相信各位聪明的小伙伴都看出来了,虽然学习Python确实是会有一些难度,但是好处可不只一星半点。

如果是数据量并不大,使用Excel还是比较方便的,

不过你得知道:Python更适合处理比更大容量的数据,灵活性更强,老板总会有奇葩的需求但是会了Python这个利器,无疑是给我们如虎添翼。

它可以自动化处理好老板的需求,而且Python还能操作一些Excel内容,那么下面我们就来请出Python练个手吧!

下面我们会通过python与excel的功能对比,来详细介绍一下我们应该如何使用python通过函数式编程完成excel中的数据处理及分析工作。


1.展示本例子中使用的数据

网上某药店2021年上半年销售数据

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

2.开始动手

一、导入数据以及理解数据部分 

import pandas as pd                                                           # 导入pandas库,用于处理Excel数据
medicineData = pd.ExcelFile('d:/data/数据分析实例.xlsx') # 选择文件
sales = medicineData.parse('药物销售单')                         # 选择要导入的sheet名,确定要导哪张表
sales.head(10)                                                                   # 显示表格的前10行

运行结果:

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

这里有用到Jupter Notebook来做演示。

1.1查看数据维度(行列)

shape可以查看该表中的行数和列数

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

2.2.查看数据格式

Dtypes是一个查看数据格式的函数,可以一次性查看数据表中所有数据的格式,也可以指定一列来单独查看。

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 1.3指定一列查看:

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

1.4查看统计信息

使用Describe函数可以查看统计信息计数,平均值,标准差,最小值,四分位数,中位数,最大值。

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

1.5查看列名称

使用columns函数查看列名称

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

二、数据清洗部分 

2.1删除缺失值

Excel做法:

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 Python做法

Python中处理空值的方法比较灵活,可以使用dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 2.2使用fillna函数把空值用0填充

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

2.3更改列名称

rename是更改列名称的函数,我们将来数据表中的应收金额列更改为应收金额(元)

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

2.4删除重复值

Excel做法:

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

Python做法:

 使用drop_duplicates()方法删除重复值

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

2.5分列 

Excel做法:

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

Python做法:

 sales_split = pd.DataFrame((x.split(' ') for x in sales['购药时间']), index = sales.index, columns = ['日期', '星期'])

如果你执行代码,会出现下面的错误,这是什么原因呢?

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 这里,我们需要注意的是缺失值会被当作浮点型 而split函数需要字符串类型,要先删除缺失值。

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

2.6将完成分列后的数据表与原数据表进行匹配

 sales = pd.merge(sales, sales_split, right_index = True, left_index = True) pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 2.7删除列

Excel做法

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

Python做法:

 Python中使用drop方法来删除列,下面两种方式都是可以的。

sales = sales.drop('购药时间', 1)                      

sales = sales.drop('购药时间', axis = 1, inplace = True)   

使用drop删除了购药时间这一列

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 2.8修改日期格式

Excel做法:

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

Python做法:

使用to_datetime函数进行修改

sales.loc[:,'日期'] = pd.to_datetime(sales.loc[:,'日期'], format = '%Y-%m-%d', errors = 'coerce')

format='%Y-%m-%d':指定输入日期字符串的格式为 %Y-%m-%d,其中 %Y 表示四位数年份, %m 表示两位数月份, %d 表示两位数日期

errors='coerce':当遇到无法解析的日期字符串时,强制将其设为缺失值 NaT,而不是抛出异常。

sales.loc 表示通过标签(label)定位DataFrame中的元素,冒号 : 表示选取所有行,'日期' 则指定选取的列名称为 日期 。最终返回的结果是一个由所有行组成的Series对象,其中索引为原DataFrame行索引,值为原DataFrame中该列的值。

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python  

 2.9排序

By:按哪一列排序

ascending=True降序

ascending=Falses升序

sales = sales.sort_values(by = '日期', ascending = True)

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 2.10重命名行名

使用reset_index重命名行名

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 2.11 删除异常值

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

由于销量、应收金额、实收金额都不应为负,所以应该清除异常值。

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

pandas和pyexcel优劣势,数据分析,学习技巧,python学习,excel,数据分析,python

 使用查询条件删除了异常值文章来源地址https://www.toymoban.com/news/detail-767458.html


到了这里,关于[数据分析实战]对比用Excel和Python用来做数据分析的优缺点,用Python的Pandas操作Excel数据表格原来如此简单?还不赶紧学起来?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Python数据分析(四)-- 操作Excel文件

    Python数据分析(四)-- 操作Excel文件

            在实际生产中,经常会用到excel来处理数据,虽然excel有强大的公式,但是很多工作也只能半自动化,配合Python使用可以自动化部分日常工作,大大提升工作效率。 openpyxl :只允许读取和写入.xlsx格式文件并进行增删改增查。 xlwings :允许读取和写入.xlsx和.xls两种

    2024年02月06日
    浏览(8)
  • Python数据分析之读取Excel数据并导入数据库

    Python数据分析之读取Excel数据并导入数据库

    曾某年某一天某地 时间如静止的空气 你的不羁 给我惊喜 ——《谁愿放手》陈慧琳 入职新公司两个多月,发现这边的数据基础很差,很多数据甚至没有系统承载,大量的Excel表,大量的人工处理工作,现阶段被迫“面向Excel”编程。本文主要介绍使用Python读取Excel数据并导入

    2024年01月25日
    浏览(9)
  • Python爬取旅游网站数据机票酒店价格对比分析

    本文将介绍如何使用Python爬虫从旅游网站上获取机票和酒店的价格数据,并实现价格对比分析,帮助你做出明智的旅行决策。我们提供了完善的方案和代码,让你能够轻松操作并获得实际价值。 使用Python爬虫获取旅游网站上的机票和酒店价格数据,可以帮助你快速比较不同供

    2024年02月10日
    浏览(9)
  • 【Python数据分析】利用Python将多个EXCEL表格合并为一个EXCEL表格

    【Python数据分析】利用Python将多个EXCEL表格合并为一个EXCEL表格

            如何将EXCEL的多个表格合并成一个表格呢?比如每月销售额是一个单独的表格,我想把它们合并成一个表格,今天就与大家分享如何利用Python数据分析3分钟搞定,不管你要合并多少个文件,代码总是那么几行。不多说了,上案例。          现在有3个月的销售额,需

    2023年04月24日
    浏览(10)
  • JAVA终极对比Python:分析和比较处理大数据的能力

    Java 是一种编译型语言,代码在运行之前首先需要被编译成字节码,然后在Java虚拟机(JVM)上运行。这通常可以提高执行速度。 Python 是一种解释型语言,代码在运行时由解释器逐行解释执行。这使得Python的启动速度相对较慢。 Java 虚拟机(JVM)可以执行即时编译(Just-In-Ti

    2024年01月18日
    浏览(13)
  • Microsoft Excel整合Python:数据分析的新纪元

    Microsoft Excel整合Python:数据分析的新纪元

    🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发秘籍专栏》学会IDEA常用操作,工作效率翻倍~💐 🌊 《100天精通Golang(基础入门篇)》学会Golang语言

    2024年02月11日
    浏览(7)
  • 数据分析实战-Python实现博客评论数据的情感分析

    数据分析实战-Python实现博客评论数据的情感分析

    现在很多网站、小程序、应用软件、博客、电商购物平台等,都有很多的用户评论数据,这些数据包含了用户对产品的认知、看法和一些立场; 那么我们可以对这些数据进行情感分析,可以得到一些有价值的信息,帮助我们进一步提升产品价值或用户体验; 本文主要针对某

    2024年03月13日
    浏览(5)
  • 【Python数据分析实战】豆瓣读书分析(含代码和数据集)

    【Python数据分析实战】豆瓣读书分析(含代码和数据集)

    @[TOC]豆瓣 数据集: 链接:douban.csv 提取码:pmls 从数据集中可以发现出版时间的数据格式多样,有1999,2012/12,1923-4,2019年六月,因此需要提取出其年份 结果: False 46173 True 7 Name: 页数, dtype: int64 结果: False 42813 True 2073 Name: 书名, dtype: int64

    2023年04月09日
    浏览(23)
  • 实战演练Python数据分析[pandas]

    实战演练Python数据分析[pandas]

    本篇文章出自于《利用Python进行数据分析》示例数据 请结合提供的示例数据,分析代码的功能,并进行数据分析与可视化拓展。本篇文章通过四个例子,通过MoviesLens数据集、美国1880-2010年的婴儿名字、美国农业部视频数据库、2012年联邦选举委员会数据库来进行着重讲解。

    2024年02月15日
    浏览(13)
  • python数据分析与挖掘实战(商品零售购物篮分析)

    python数据分析与挖掘实战(商品零售购物篮分析)

            购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业重点研究的问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。        本篇文章

    2024年02月06日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包