【pandas基础】--核心数据结构

这篇具有很好参考价值的文章主要介绍了【pandas基础】--核心数据结构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

pandas中用来承载数据的两个最重要的结构分别是:

  1. Series:相当于增强版的一维数组
  2. DataFrame:相当于增强版的二维数组

pandas最大的优势在于处理表格类数据,如果数据维度超过二维,一般我们会使用另一个 python的库 numpy

本篇主要介绍这两种核心数据结构的创建方式。

1. Series

pandasSeries是一种带有标签索引的一维数据结构。
它可以表示任何一维带标签的数据,例如时间序列数据、运动员数据、股票价格等等。

pandasSeries由两个数组构成:一个是数据数组,它可以是numpy数组、列表、字典等;另一个是索引数组,它指定数据数组中每个元素的标签。

Series可以进行各种数学运算、逻辑运算和复制操作,可以轻松创建、操作和使用。
pandasSeries特别强大之处就是可以使用各种方法进行数据的操作、处理和分析,因此在数据分析、数据处理和科学计算方面非常有用。

常用的创建 Series有两种方式:

1.1 从列表创建

l = [78, 89, 95]
s = pd.Series(l)
s.head()

image.png
从列表可以直接创建出 Series,可以看出,与一般的一维数组相比,Series多了一列索引信息。
其实,除此之外,Series还有很多用于分析和统计的方法,后续我们再介绍。

索引默认是从0开始的数字,也可以在创建时设置有意义的索引名称。

l = [78, 89, 95]
s = pd.Series(l, index=["语文", "数学", "英语"])
s.head()

image.png

1.2 从字典创建

d = {"a": 78, "b": 89, "c": 95}
s = pd.Series(d)
s.head()

image.png
从字典创建Series时,会将字典的 key作为了索引。
修改索引不用 index参数,而是直接修改字典的 key

d = {"语文": 78, "数学": 89, "英语": 95}
s = pd.Series(d)
s.head()

image.png

2. Dataframe

pandasDataFrame是一个二维的数据结构,可以存储各种类型的数据,类似于Excel中的表格。
它由行和列组成,每一行和每一列都有一个索引值,可以通过索引值进行读写操作。

DataFrame支持许多操作,包括对数据的过滤、切片、排序、连接和聚合等。
它还可以从各种数据源(如CSV、SQL数据库和Excel)中读取数据,并将数据写入这些数据源。

pandas中,DataFrame可以使用字典、列表、Numpy数组、其他pandas数据框等构建。
DataFrame还有一些重要的属性和方法,例如headtaildescribe等,用于查看数据、统
计数据、随机抽样等。

除此之外,DataFrame还支持pandas中的许多高级操作,例如多重索引、透视表、重塑等。
这些功能使DataFrame成为数据分析中必不可少的工具。

2.1 从列表创建

l = [[78, 89, 95], [65, 84, 100]]
df = pd.DataFrame(l)
df.head()

image.png
从列表创建DataFrame之后,默认的索引列名称都是从0开始的数字。
也可以自定义DataFrame的索引名称和列名称,通过 indexcolumns参数。

l = [[78, 89, 95], [65, 84, 100]]
df = pd.DataFrame(l, index=["小明", "小红"], columns=["语文", "数学", "英语"])
df.head()

image.png

2.2 从字典创建

d = [{"语文": 78, "数学": 89, "英语": 95}, {"语文": 65, "数学": 84, "英语": 100}]
df = pd.DataFrame(d)
df.head()

image.png
字典的key作为列名称,索引不设置的话,默认还是从0开始的数字。

2.3 从 numpy 数组创建

import numpy as np

data = np.array([[78, 89, 95], [65, 84, 100]])
df = pd.DataFrame(data)
df.head()

image.png
numpy二维数组创建 DataFrame和直接从列表创建类似。
注意,这里只能从 numpy的二维数组创建,如果是维度更高的数组,创建时会出错。

data = np.array([[[78, 89, 95], [65, 84, 100]]])
df = pd.DataFrame(data)
df.head()

上面的 data是三维数组,执行上面的代码会有如下的错误信息:
image.png

3. 两种结构互相转换

pandas的两种核心结构之间是可以互相转换的,可以将 Series理解为 DataFrame的一列。

3.1 Series 到 DataFrame

对于一个 Series来说,可以理解成一列是索引,一列是数据。
Series转换为 DataFrame有多种方式,通过字典来中转是比较直观的一种方式。

d = {"语文": 78, "数学": 89, "英语": 95}
s = pd.Series(d)
s.head()

image.png
由前面的介绍可知,红色框内的是 Series的索引(即 s.index),
右边一列数字部分是Series的值(即s.values)。

df = pd.DataFrame({"学科": s.index, "分数": s.values})
df.head()

image.png
这样就转换成了一个 DataFrame,列名就是字典的key学科分数

3.2 DataFrame 到 Series

DataFrameSeries更加简单,DataFrame的每一列都可以转成 Series

l = [[78, 89, 95], [65, 84, 100]]
df = pd.DataFrame(l, index=["小明", "小红"], columns=["语文", "数学", "英语"])
df.head()

df["数学"]

image.png

type(df["数学"])

image.png

注意,DataFrame只有选择一列的时候才是一个 Series,如果选择多列的话,则还是一个 DataFrame

print(type(df[["数学", "语文"]]))
df[["数学", "语文"]]

image.png

4. 总结回顾

本篇主要介绍了pandas的两个核心数据结构 SeriesDataFrame
首先介绍了它们各自的创建方式,即从普通的python数据结构创建 SeriesDataFrame的常用方式。
然后也介绍了它们之间常用的互相转换方法。

SeriesDataFrame数据部分就是一维数组和二维数组,pandas不过是在数据部分之上封装了各种各样的管理和分析统计的函数。
然而正因为有了这些函数,才让pandas成为数据分析的一件利器。

本文关联的微信视频号短视频:
pandas02-核心数据结构.png文章来源地址https://www.toymoban.com/news/detail-435897.html

到了这里,关于【pandas基础】--核心数据结构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 08-pandas 入门-pandas的数据结构

    要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)

    2024年02月11日
    浏览(27)
  • 【玩转pandas系列】pandas数据结构—DataFrame

    大家好!我是一朵向阳花(花花花)🍭,本期跟大家分享的知识是 pandas 数据结构——DataFrame。 作者的【 Python 数据分析】专栏正在火热更新中🔥,如果本文对您有帮助,欢迎大家点赞 + 评论 + 收藏 ! 每日金句分享: 慢慢来,谁还没有一个努力的过程。』—— pony「网易云

    2024年02月15日
    浏览(26)
  • 【玩转pandas系列】pandas数据结构—Series

    大家好!我是一朵向阳花(花花花),本期跟大家分享的知识是 pandas 数据结构——Series。 作者的【 Python 数据分析】专栏正在火热更新中,如果本文对您有帮助,欢迎大家点赞 + 评论 + 收藏 ! 每日金句分享: 愿你有一天,能和你最重要的人重逢。』—— 艾拉「可塑性记忆

    2024年02月15日
    浏览(28)
  • 【Azure】微软 Azure 基础解析(四)Azure核心体系结构组件之数据中心、区域与区域对、可用区和地理区域

    本系列博文还在更新中,收录在专栏:「Azure探秘:构建云计算世界」 专栏中。 本系列文章列表如下: 【Azure】微软 Azure 基础解析(三)描述云计算运营中的 CapEx 与 OpEx,如何区分 CapEx 与 OpEx 【Azure】微软 Azure 基础解析(四)Azure核心体系结构组件之数据中心、区域与区域

    2024年02月15日
    浏览(39)
  • Pandas 数据分析系列1--Series&DataFrame数据结构详解

       P andas 是一个开源的数据分析和数据处理库,是基于 NumPy 开发的。它提供了灵活且高效的数据结构,使得处理和分析结构化、缺失和时间序列数据变得更加容易。其在数据分析和数据处理领域广泛应用,在金融、社交媒体、科学研究等领域都有很高的使用率和广泛的应用

    2024年02月08日
    浏览(30)
  • 【数据分析专栏之Python篇】五、pandas数据结构之Series

    大家好!本期跟大家分享的知识是 Pandas 数据结构—Series。 Series 是一种类似于一维数组的对象,由下面两部分组成: values :一组数据,ndarray 类型 index :数据索引 顾名思义 ,我们在创建 Series 对象时,需要传递一组数据,该数据大多数时候是可迭代对象。因此,下面三种创

    2024年02月14日
    浏览(43)
  • redis核心数据结构

    redis下载地址:Download | Redis linux进入redis目录首先使用make命令进行c++的编译,修改redis.conf文件: 启动退出相关命令: redis五种数据结构图: 1、常用命令 2、应用场景 1)、单值缓存 2)、对象缓存 3)、分布式锁  4)、计数器 5) 、计数器 6) 、分布式系统全局序列号 1、

    2024年02月09日
    浏览(31)
  • ES核心干货学习(原理及数据结构)

    ES是建立在Lucene基础之上的分布式准实时搜索引擎。 核心:分布式和Lucene全文搜索。 1.2 什么场景需要用ES 1. 业务需要进行大量数据实时检索时,传统关系型数据库无法支撑。 2. 需要进行分词检索,语义检索 3. 需要大数据分析 符合上面特征都可以考虑,如日志收集、订单数

    2024年02月15日
    浏览(31)
  • Redis核心数据结构之压缩列表(一)

    压缩列表(ziplist)是列表键和哈希键的底层实现之一。当一个列表键只包含少量列表项,并且每个列表项要么就是小整数值,要么就是长度比较短的字符串,那么Redis就会使用压缩列表来做列表键的底层实现。 例子 例如,执行以下命令将创建一个压缩列表实现的列表键,列表键

    2024年03月16日
    浏览(32)
  • OpenCV实战(2)——OpenCV核心数据结构

    cv::Mat 类是用于保存图像(以及其他矩阵数据)的数据结构,该数据结构是所有 OpenCV 类和函数的核心,这是 OpenCV 库的一个关键元素,用于处理图像和矩阵(从计算和数学的角度来看,图像本质上是一个矩阵)࿰

    2024年02月02日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包