文章目录
一、pandas是什么?
二、pandas库下载和安装
三、pandas Series结构
一、pandas是什么?
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
1.pandas 主要特点:
- 它提供了一个简单、高效、带有默认标签(也可以自定义标签)的 DataFrame 对象。
- 能够快速得从不同格式的文件中加载数据(比如 Excel、CSV 、SQL文件),然后将其转换为可处理的对象;
- 能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作;
- 能够很方便地实现数据归一化操作和缺失值处理;
- 能够很方便地对 DataFrame 的数据列进行增加、修改或者删除的操作;
- 能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等;
- 提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等。
2.pandas主要优势:
- Pandas 的 DataFrame 和 Series 构建了适用于数据分析的存储结构;
- Pandas 简洁的 API 能够让你专注于代码的核心层面;
- Pandas 实现了与其他库的集成,比如 Scipy、scikit-learn 和 Matplotlib;
- Pandas 官方网站(点击访问)提供了完善资料支持,及其良好的社区环境。
3.pandas内置数据结构:
在ndarray数组(numpy 中数组)的基础上构建了两种不同的数据结构,分别是Series(一维数据结构),DataFrame(二维数据结构)
- Series是一种一维数组对象,包含一个值序列,并且包含数据标签,称为索引(index),通过索引来访问数组中的数据。
- DataFrame是一种表格型数据结构,它既有行标签(index),又有列标签(coumns)
二、pandas库下载和安装
python官方标准发行版并没有自带pandas库,因此需要另行安装。
1.Windows系统安装:
使用pip包管理器安装pandas,是最简单的一种安装方式。在CMD命令提示符界面执行以下命令:
pip install pandas
三、pandas Series结构
Series 可以保存任何数据类型,比如整数、字符串、浮点数、python对象等,它的标签默认为整数,从0开始依次递增。
1.创建Series对象:
pandas使用Series()函数来创建Series对象,通过这个对象可以调用相应的方法和属性,从而达到处理数据的目的
import pandas as pd
s = pd.Series(data,index,dtype,copy)
1.1.创建一个空的Series对象
import pandas as pd
# 输入数据为空
s = pd.Series()
print(s)
结果:Series([], dtype: object)
1.2.ndarray创建Series对象:
ndarray是numpy中的数组类型,当data是ndarray时,传递的索引必须具有与数组相同的长度。
# 使用默认索引创建Series序列对象
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print(s)
结果:
0 a
1 b
2 c
3 d
dtype: object
1.3.dict创建Series对象:
# 没有传递索引时
import pandas as pd
import numpy as np
data = {'a':0,'b':1,'c':2}
s = pd.Series(data)
print(s)
#为index参数传递索引时:
s1 = pd.Series(data,index=['b','c','d','a'])
print(s1)
1.4.标量创建Series对象:
如果data是标量值,则必须提供索引
import pandas as pd
s = pd.Series(5,index=[0,1,2,3])
print(s)
结果:
0 5
1 5
2 5
3 5
dtype: int64
2.访问Series数据:
2.1. 位置索引访问:
import pandas as pd
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
print(s[0])
print(s['a'])
print(s[:3])
print(s[-3:])
结果:
1
1
------------------
a 1
b 2
c 3
dtype: int64
------------------
c 3
d 4
e 5
dtype: int64
2.2.索引标签访问:
import pandas as pd
s = pd.Series([11,12,13,14,15],index=['a','b','c','d','e'])
print(s['a'])
print(s[['a','c','d']])
结果:
11
a 11
c 13
d 14
dtype: int64
3.Series常用属性:文章来源:https://www.toymoban.com/news/detail-831188.html
- axes:以列表的形式返回所有行索引标签
- dtype:返回对象的数据类型
- empty:返回一个空的Series对象
- ndim:返回输入数据的维数
- size:返回输入数据的元素数量
- values:以ndarray的形式返回Series对象
- index:返回一个Rangelndex对象,原来描述索引的取值范围
4.Series常用方法:文章来源地址https://www.toymoban.com/news/detail-831188.html
- head():返回前n行数据
- tail():返回后n行数据
- isnull():如果值不存在或缺失,则返回True。
- notnull():如果值不存在或缺失,则返回False。
到了这里,关于pandas基础知识、Series结构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!