Pandas 简单入门教程
什么是Pandas?
Pandas是一个开源的Python数据分析库,它提供了快速、灵活、易于使用的数据结构,旨在使数据清洗和分析变得简单快捷。
安装Pandas
你可以使用以下命令来安装Pandas:
pip install pandas
导入Pandas
要使用Pandas,你需要将其导入到Python环境中:
import pandas as pd
数据结构
Pandas提供了两种数据结构:
- Series:是一个一维的标记数组,可以保存任何数据类型(整数,字符串,浮点数,Python对象等)。Series是基本的构建块,可以用来构建更复杂的数据结构,如DataFrame。
- DataFrame:是一个多维标记数组,由行和列组成。可以将其想象成一个电子表格或SQL表。
创建Series
你可以使用pd.Series()
函数来创建一个Series:
a = pd.Series([1,2,3,4,5])
s = pd.Series([1,3,5,np.nan,6,8])
print(a,"\n", s)
输出结果如下:
0 1
1 2
2 3
3 4
4 5
dtype: int64
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
创建DataFrame
你可以使用pd.DataFrame()
函数来创建一个DataFrame:
# 创建第一个
data = {'name': ['John', 'Jane', 'Sam'], 'age': [25, 30, 21]}
df = pd.DataFrame(data)
print(df)
# 创建第二个
import numpy as np
dates = pd.date_range('20220101', periods=6)
df1 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
第一个输出结果如下:
name age
0 John 25
1 Jane 30
2 Sam 21
基本操作
查看DataFrame中的数据
df.head()
查看DataFrame中的列名
df.columns
查看DataFrame中的索引
df.index
查看DataFrame中的统计信息
df.describe()
对DataFrame进行转置操作
df.T
对DataFrame进行排序操作
df.sort_index(axis=1, ascending=False)
对DataFrame进行选择操作
df['A']
以上就是Pandas入门教程的简单介绍。
读取数据
Pandas可以读取多种文件格式的数据,如CSV、Excel、SQL等。使用pd.read_XXX()
函数来读取指定格式的数据,其中XXX
是文件格式名的缩写。以下是一个使用CSV格式读取数据的例子:
df = pd.read_csv('data.csv')
print(df.head())
数据批处理
Pandas可以像SQL一样对数据进行过滤、排序、聚合等批处理操作。
过滤数据
使用df[df['column'] condition]
来过滤数据:
df_filtered = df[df['age'] > 25]
print(df_filtered)
排序数据
使用df.sort_values('column', ascending=True/False)
函数对数据进行排序:
df_sorted = df.sort_values('age', ascending=False)
print(df_sorted)
聚合数据
使用df.groupby('column').agg_func()
函数对数据进行聚合:
df_grouped = df.groupby('age').count()
print(df_grouped)
这些只是Pandas的一些基础特性和操作。学习Pandas的更多内容将帮助你更好地处理和分析数据。
数据清洗
在处理数据时,通常需要对数据进行清洗,例如删除未使用的列或行,处理缺失值,去重等。以下是一些清洗数据的示例:
删除未使用的列或行
使用df.drop()
函数删除未使用的列或行:
# 删除未使用的列
df_dropped_col = df.drop('column_name', axis=1)
# 删除未使用的行
df_dropped_row = df.drop([0, 1, 2], axis=0)
处理缺失值
使用df.dropna()
函数删除包含缺失值的行或列。使用df.fillna()
函数使用指定值填充缺失值:
# 删除包含缺失值的行
df_dropped_missing = df.dropna()
# 填充缺失值
df_filled_missing = df.fillna(0)
去重
使用df.drop_duplicates()
函数删除重复的行:
df_unique = df.drop_duplicates()
数据可视化
Pandas提供了数据可视化的功能,可以将数据转换为图表并进行可视化分析。
以下是一个创建柱形图的示例:
import matplotlib.pyplot as plt
# "name"列上的值将用作横轴
# "age"列上的值将用作纵轴
df.plot(kind='bar', x='name', y='age')
# 显示柱形图
plt.show()
除了柱形图外,Pandas还可以创建多种类型的图表,包括折线图、散点图等等。
总结
在本教程中,我们介绍了Pandas的基础知识,包括安装和导入模块,数据结构,创建Series和DataFrame,读取数据,批处理操作,数据清洗以及数据可视化。Pandas是Python中非常强大的数据处理和分析库,它可以大大简化数据处理和分析的过程。通过学习Pandas的更多功能,你可以更高效地处理和分析数据。文章来源:https://www.toymoban.com/news/detail-419429.html
如果你想了解更多关于Pandas的知识,请参考官方文档:https://pandas.pydata.org/docs/文章来源地址https://www.toymoban.com/news/detail-419429.html
到了这里,关于Pandas 简单入门教程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!