【数据处理】Pandas读取CSV文件示例及常用方法(入门)

这篇具有很好参考价值的文章主要介绍了【数据处理】Pandas读取CSV文件示例及常用方法(入门)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 导入常用包

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import datetime
%matplotlib inline

2. 文件读取

data = pd.read_csv('./xxxxxx_2010.1.1-2014.12.31.csv')

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

3. 查看有哪些列

data.columns

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

4. 查看前几行数据

data.head() # 默认前5行

【数据处理】Pandas读取CSV文件示例及常用方法(入门)
查看读取前10行数据

data.head(10)

5. 查看数据信息

data.info()

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

6. 查看获取指定列的数据

data['pm2.5']  # 查看pm2.5该列的数据

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

7. 判断某列是否有None值

data['pm2.5'].isna() # 判断None值 返回布尔类型数据

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

8. 查看某列的None值数量

data['pm2.5'].isna().sum() # 查看None的数量

2067

9. 获取指定行的数据

data.iloc[24:] # 从24行到最后一行

10. 填补None值

向前填充

data.iloc[24:].fillna(method = 'ffill') # 前向填充

指定列的插值填充

data['pm2.5'].interpolate() # 插值

使用某数据填充指定列的空值

 # 使用0填补空值
data['pm2.5'].fillna(0, inplace = True) 
# inplace = True:直接修改源数据DataFrame ,默认返回修改后的数据(原数据不变)

11.用原数据组合添加一列新数据

示例:

data['tm'] = data.apply(lambda x : datetime.datetime(year = x['year'],
                                        month = x['month'],
                                        day = x['day'],
                                        hour = x['hour']),axis=1)

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

12. 删除指定某列的数据

data.drop(columns=['year','month','day','hour','No'],inplace = True)

13. 获取指定行与列

类似切片

data = data.iloc[:,:8]

14. 将某一列设置为新的Index索引值

data = data.set_index('tm')

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

15. 查看某列数据的所有值

data.cbwd.unique()

array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object)

16. 类型转换Numpy

data.iloc[:,1:].to_numpy()

17. agg 聚合操作

类似数据库查询中的groupby查询

先添加新的一列按月将数据划分

data['timeForMonth'] = data.apply(lambda x: str(x['year'])+"-"+'{:02}'.format(int(x['month'])), axis=1)

聚合,对指定的列按月划分求平均值等

dataForMonth = data.groupby('timeForMonth').agg({'pm2.5':'mean','DEWP':'mean','TEMP':'mean','Iws':'mean','Is':'sum','Ir':'sum'})
  • min 最小值 max 最大值
  • sum 求和
  • mean 平均值
  • median 中位数
  • std 标准差
  • var 方差
  • count 计数

18.指定列的数据绘图

data['pm2.5'].plot()

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

19. 只要某列的数据

生成新的data

data = data[['pm2.5', 'tm']]

20.统计某列中各个数据的次数

data.列名.value_counts()
data.airline_sentiment.value_counts()

结果示例:
negative 9178
neutral 3099
positive 2363
Name: airline_sentiment, dtype: int64

21.两个数据上下拼接

data = pd.concat([data_a, data_b])

假如data_a的维度为4行6列,data_b为6行6列(列数相同),则data为10行6列

22.随机获取若干行数据

data2 = data.sample(2) # 随机取2条数据
data = data.sample(len(data)) # 乱序用法

23.查看最后几行数据

data.tail()   # 默认5行
data.tail(10) # 倒数10行

如果觉得本文有用,点赞收藏鼓励一下吧,谢谢🌹!!!文章来源地址https://www.toymoban.com/news/detail-457247.html

到了这里,关于【数据处理】Pandas读取CSV文件示例及常用方法(入门)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【头歌】——数据分析与实践-基于Python语言的文件与文件夹管理-文本 文件处理-利用csv模块进行csv文件的读写操作

    第1关 创建子文件夹 第2关 删除带有只读属性的文件 第3关 批量复制文件夹中的所有文件 未通过本题,如果您通过了本题欢迎补充到评论区,有时间我会整理进来 第1关 读取宋词文件,根据词人建立多个文件 第2关 读取宋词文件,并根据词人建立多个文件夹 第3关 读取宋词文

    2024年01月25日
    浏览(41)
  • Python中数据处理(npz、npy、csv文件;元组、列表、numpy数组的使用)

    目录 1.npz文件 2.npy文件 3.csv文件 4.列表、元组、numpy矩阵 ①列表 ②元组(不可变列表) ③Numpy数组 ③Numpy矩阵 1.npz文件 npz是python的压缩文件 ①读取文件 ② NpzFile 对象有个属性 files 可以通过它查看该压缩文件的所有文件名,通过 dataset[\\\'文件名\\\'] 来获取文件内容 ③保存为.npz文件

    2024年02月03日
    浏览(32)
  • Python用pandas进行大数据Excel两文件比对去重300w大数据处理

    Python用pandas进行大数据Excel两文件比对去重 通俗理解有两个excel文件 分别为A和B 我要从B中去掉A中含有的数据, 数据量大约在300w左右 因为数据量较大,无论是wps还是office自带的去重都无法正常使用这样就需要用到脚本了  欢迎大家指导交流,共同学习,共同进步!

    2024年02月15日
    浏览(50)
  • Python 之 Pandas 文件操作和读取 CSV 参数详解

    当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。Panda 提供了多种读取数据的方法,针对不同的文件格式,有以下几种: (1) read_csv() 用于读取文本文件。 (2) read_excel() 用于读取文本文件。 (3) read_json() 用于读取 json 文件。 (

    2024年02月15日
    浏览(33)
  • Jupyter:用python读取pandas的csv文件,txt文件和excel文件

    首先打开Anaconda Powershell Prompt,输入豆瓣镜像源相关包的下载地址  pip  install  -i  https://pypi.doubanio.com/simple/  --trusted-host pypi.doubanio.com com后面要有空格,空格后面加pandas,后面好识别pd(pandas是包名,也可以改成其他任意名字,但是尽量不要改,容易出错) 按回车,显示S

    2024年02月04日
    浏览(42)
  • pandas(九) 数据读取-读取csv、excle、txt、mysql数据

    一、Pandas需要先读取表格类型的数据,然后进行分析 数据类型 说明 读取方法 CSV. tsV. txt 用逗号分隔、tab分割的纯文本文件 pd.read_csv excel xls、xlsx文件 pd.read_excel mysql 关系型数据库表 pd.read_sql 二、Pandas 读取数据 数据资料:https://grouplens.org/datasets/movielens/ 读取CSV, 使用默认的

    2024年02月12日
    浏览(40)
  • Python处理xlsx文件(读取、转为列表、新建、写入数据、保存)

    xlsxwriter**库对于xslx表的列数不做限制, xlrd 库不能写入超过65535行,256列的数据。 由于需要处理的数据行列数较多,遇到报错才发现库的限制问题,记录一下。

    2024年02月12日
    浏览(39)
  • 开源 SPL 助力 JAVA 处理公共数据文件(txt \csv \ json \xml \xls)

    在 JAVA 应用中经常要处理 txtcsvjsonxmlxls 这类公共格式的数据文件,直接用 JAVA 硬写会非常麻烦,通常要借助一些现成的开源包,但这些开源包也都有各自的不足。 解析库 。这种类库解决了从外部文件到内部对象的问题,比硬编码取数好写,常见的有解析 txtcsv 的 OpenCSV,

    2024年02月01日
    浏览(35)
  • python,Pandas读取csv文件gbk编码和utf-8编码都报错

    用Pandas读取csv文件,read_csv(),使用默认的 encoding = ‘utf-8’ 和 encoding = ‘gbk’ 都报错,如下图。最终通过 统一编码方式 解决了,操作很简单,但是问题解决的探索过程并不是特别顺利,所以记录一下,给朋友们参考~ 统一编码方式,将csv文件的编码格式改为utf-8。 具体操作

    2024年01月16日
    浏览(45)
  • 【Matlab】如何读取文件夹下所有txt数据进行处理并以txt结果更名输出

    如何读取文件夹下所有txt数据进行处理并以txt结果更名输出 目录 前言 一、Matlab中fullfile函数用法 二、使用步骤 1.读取文件夹下所有txt文件并以struct存储变量 2.循环下读取每个txt文件中的数据并进行处理 总结 遇到Matlab需要大批量处理一个文件夹下所有的txt格式,经过信号处

    2024年02月07日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包