python中Pandas之DataFrame索引、选取数据

这篇具有很好参考价值的文章主要介绍了python中Pandas之DataFrame索引、选取数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


总结一下 DataFrame索引问题

1.索引是什么

1.1 认识索引

先创建一个简单的DataFrame

myList = [['a', 10, 1.1],
	  ['b', 20, 2.2],
	  ['c', 30, 3.3],
	  ['d', 40, 4.4]]  
df1 = pd.DataFrame(data = myList)
print(df1)
--------------------------------
[out]:
   0   1    2
0  a  10  1.1
1  b  20  2.2
2  c  30  3.3
3  d  40  4.4

DataFrame中有两种索引:

  • 行索引(index):对应最左边那一竖列
  • 列索引(columns):对应最上面那一横行

两种索引默认均为从0开始的自增整数。

# 输出行索引
print(df1.index)
[out]:
RangeIndex(start=0, stop=4, step=1)
---------------------------------------
# 输出列索引
print(df1.columns)
[out]:
RangeIndex(start=0, stop=3, step=1)
---------------------------------------
# 输出所有的值
print(df1.values)
[out]:
array([['a', 10, 1.1],
       ['b', 20, 2.2],
       ['c', 30, 3.3],
       ['d', 40, 4.4]], dtype=object)

1.2 自定义索引

可以使用 index 这个参数指定行索引,columns 这个参数指定列索引。

df2 = pd.DataFrame(myList, 
		           index = ['one', 'two', 'three', 'four'], 
		           columns = ['char', 'int', 'float'])
print(df2)
-----------------------------------------------------------
[out]:
      char  int  float
one      a   10    1.1
two      b   20    2.2
three    c   30    3.3
four     d   40    4.4

输出此时的行索引和列索引:

# 输出行索引
print(df2.index)
[out]:
Index(['one', 'two', 'three', 'four'], dtype='object')
--------------------------------------------------------
# 输出列索引
print(df2.columns)
[out]:
Index(['char', 'int', 'float'], dtype='object')

2. 索引的简单使用

2.1 列索引

  • 选择一列:
print(df2['char'])
print(df2.char)
# 两种方式输出一样
[out]:
one      a
two      b
three    c
four     d
Name: char, dtype: object

注意此时方括号里面只传入一个字符串 ’char’,这样选出来的一列,结果的类型为 Series

type(df2['char'])
[out]: pandas.core.series.Series
  • 选择多列:
print(df2[['char', 'int']])
[out]: 
      char   int
one      a   10
two      b   20
three    c   30
four     d   40

注意此时方括号里面传入一个列表 [‘char’, ‘int’],选出的结果类型为 DataFrame
如果只想选出来一列,却想返回 DataFrame 类型怎么办?

print(df2[['char']])
[out]:
      char
one      a
two      b
three    c
four     d
---------------------------------------
type(df2[['char']])
[out]:pandas.core.frame.DataFrame

注意直接使用 df2[0] 取某一列会报错,除非columns是由下标索引组成的,比如df1那个样子,df1[0] 就不会报错。

print(df1[0])
[out]:
0    a
1    b
2    c
3    d
Name: 0, dtype: object
-----------------------
print(df2[0])
[out]: 
KeyError: 0

2.1.2 使用loc和iloc

df = dat_df.iloc[:, [0, 2, 3, 4]]  #选择所有行,并选择第0,2,3,4列,列名可以为其它字符串

2.2 行索引

2.2.1 使用[ : ]

区别于选取列,此种方式 [ ] 中不再单独的传入一个字符串,而是需要使用冒号切片。

  • 选取行标签’two’’three’ 的多行数据
print(df2['two': 'three'])
[out]:
      char  int  float
two      b   20    2.2
three    c   30    3.3
# dataframe格式
# 也可以直接用数字
  • 选取行标签为 ’two’ 这一行数据
# 此时返回的类型为DataFrame
print(df2['two': 'two'])
[out]:
      char  int  float
two      b   20    2.2

[ ] 中不仅可以传入行标签,还可以传入行的编号。

  • 选取从第1行到第3行的数据(编号从0开始)
print(df2[1:4])
[out]:
      char  int  float
two      b   20    2.2
three    c   30    3.3
four     d   40    4.4
# dataframe格式

可以看到选取的数据是不包含方括号最右侧的编号所对应的数据的。

  • 选取第1行的数据
print(df2[1:2])
[out]:
    char  int  float
two    b   20    2.2

2.2.2 使用.loc()和.iloc()

区别就是 .loc() 是根据行索引和列索引的值来选取数据,而 .iloc() 是根据从 0 开始的下标位置来进行索引的。

  • 选取
    1. 使用.loc()
print(df2.loc['one'])
[out]:
char       a
int       10
float    1.1
Name: one, dtype: object
-------------------------------------------
print(df2.loc[['one', 'three']])
[out]:
      char  int  float
one      a   10    1.1
three    c   30    3.3
-------------------------------------------
df2.loc['one': 'three']
Out[14]: 
      char  int  float
one      a   10    1.1
two      b   20    2.2
three    c   30    3.3

2. 使用.iloc()

print(df2.iloc[0])
[out]:
char       a
int       10
float    1.1
Name: one, dtype: object
-------------------------------------------
print(df2.iloc[[0, 2]])
[out]:
      char  int  float
one      a   10    1.1
three    c   30    3.3
-------------------------------------------
df2.iloc[1: 3]
Out[18]: 
      char  int  float
two      b   20    2.2
three    c   30    3.3

3. 根据列条件,选取dataframe数据框中的数据

# 选取等于某些值的行记录 用 == 

df.loc[df['column_name'] == some_value]

# 选取某列是否是某一类型的数值 用 isin

df.loc[df['column_name'].isin(some_values)]

# 多种条件的选取 用 &

df.loc[(df['column'] == some_value) & df['other_column'].isin(some_values)]

# 选取不等于某些值的行记录 用 !=

df.loc[df['column_name'] != some_value]

# isin返回一系列的数值,如果要选择不符合这个条件的数值使用~

df.loc[~df['column_name'].isin(some_values)]

4. 根据列条件,获取行索引号并转成列表

dataframe中根据一定的条件,得到符合要求的某些行元素所在的位置

import pandas as pd
df = pd.DataFrame({'BoolCol': [1, 2, 3, 3, 4],'attr': [22, 33, 22, 44, 66]},  
       index=[10,20,30,40,50])  
print(df)  
a = df[(df.BoolCol==3)&(df.attr==22)].index.tolist()  
print(a)  

输出:

  BoolCol  attr  
10        1    22  
20        2    33  
30        3    22  
40        3    44  
50        4    66  
[30]  

注意:
df[(df.BoolCol==3)&(df.attr==22)].index 返回的是 index 对象列表,需转换为普通列表格式时用 tolist() 方法

5. 索引操作集锦

a = data_1H2['num'].value_counts(sort=True, ascending=True).sort_index(ascending=False)

参考链接
[1] Pandas中DataFrame索引、选取数据 2020.3文章来源地址https://www.toymoban.com/news/detail-402309.html

到了这里,关于python中Pandas之DataFrame索引、选取数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【python】pandas-DataFrame类型数据重命名列表头

    目录 0.环境 1.将DataFrame类型数据某一列重命名 windows + jupyter notebook + python  使用场景: 在处理数据对齐的问题时,两个表格的对齐列名不相同(一个数据集是DataFrame类型,一个数据集是geopandas类型),所以想修改一下DataFrame类型数据的某一列名字,特此记录分享 1)重命名前

    2024年02月14日
    浏览(35)
  • Python 之 Pandas DataFrame 数据类型的简介、创建的列操作

    DataFrame 是 Pandas 的重要数据结构之一,也是在使用 Pandas 进行数据分析过程中最常用的结构之一,可以这么说,掌握了 DataFrame 的用法,你就拥有了学习数据分析的基本能力。 DataFrame 是一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表

    2024年02月06日
    浏览(29)
  • 4.11 Pandas中的DataFrame数据类型API函数参考手册(一) (Python)

    前言 Pandas 是一个专门用于数据处理和分析的 Python 库,它提供了众多强大的数据结构和函数,帮助用户更加轻松、高效地完成数据处理和分析任务。其中,DataFrame 数据类型是 Pandas 中非常重要的一种数据结构,可以方便地对二维表格数据进行操作、处理、统计和可视化等工作

    2024年02月10日
    浏览(39)
  • python的pandas中如何在dataframe中插入一行或一列数据?

    dataframe类型是如何插入一行或一列数据的呢?这个需求在本文中将会进行讨论。相比较ndarray类型的同样的“数据插入”需求,dataframe的实现方式,则不是很好用。本文以一个dataframe类型变量为例,测试插入一行数据或者一列数据的方式方法。测试环境:win10,python@3.11.0,nu

    2024年02月03日
    浏览(52)
  • 【python】数据可视化,使用pandas.merge()对dataframe和geopandas类型数据进行数据对齐

    目录 0.环境 1.适用场景 2.pandas.merge()函数详细介绍 3.名词解释“数据对齐”(来自chatGPT3.5) 4.本文将给出两种数据对齐的例子 1)dataframe类型数据和dataframe类型数据对齐(对齐NAME列); 数据对齐前的两组数据集: 数据对齐后的数据集(通过pandas.merge()函数对齐): 代码 2)

    2024年02月09日
    浏览(34)
  • Pandas教程:如何使用insert函数向Dataframe指定位置插入新的数据列(Python)

    Pandas教程:如何使用insert函数向Dataframe指定位置插入新的数据列(Python) Pandas是Python中最流行的数据处理和分析库之一。在数据分析过程中,有时候需要在Dataframe中插入新的数据列。在本教程中,我们将介绍如何使用Pandas的insert函数在指定位置插入新的数据列。 首先,我们

    2024年02月11日
    浏览(30)
  • 如何使用Python的pandas库获取DataFrame数据的最小值、最大值以及自定义分位数?

    Pandas是一个非常流行的Python数据处理库,它提供了大量的方法和工具来处理和分析数据。在本文中,我将向您展示如何使用Pandas获取dataframe格式数据的最小值、最大值和自定义分位数。 1、 获取最小值和最大值 获取dataframe的最小值和最大值非常简单。可以使用Pandas的min()和

    2024年02月02日
    浏览(69)
  • 【Python】数据科学工具(Numpy Pandas np.array() 创建访问数组 向量与矩阵 Series DataFrame)

    1.Numpy numpy是Python中一个非常重要的科学计算库,其最基础的功能就是N维数组对象——ndarray。 1.1 数组的创建 1)np.array() 用 np.array() 函数可以将Python的序列对象(如列表、元组)转换为ndarray数组。 2)arange、linspace、logspace np.arange(start, stop, step) :创建一个一维数组,其中的值

    2024年02月10日
    浏览(32)
  • 「Python|Pandas|场景案例」如何只保留DataFrame数据集的某些列(要保留的列不固定)

    本文主要介绍在使用pandas进行数据分析过程中的数据预处理时,如果希望仅保留某些列的数据需要如何操作。同时介绍一些特殊情况,比如列是用变量存储;或者列是一个全集,处理的数据集中不一定包括列出的全部列名。 在数据处理的时候,可能会遇到数据集包含的数据字

    2024年02月06日
    浏览(41)
  • 【第三章 Python 机器学习入门之Series和DataFrame的创建、索引、切片、数据清洗、数据分析等】

    第一章 Python 机器学习入门之Pandas库的使用 第二章 Python 机器学习入门之NumPy库的使用 第四章 Python 机器学习入门之数据可视化 第五章 Python 机器学习入门之机器学习算法 第六章 Python 机器学习入门之实战项目 Series是一种一维数组,可以通过以下方式创建: 通过列表创建Ser

    2024年02月05日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包