1. 创建 DataFrame
DataFrame 是 Pandas 中的一个基本数据结构,用于以表格形式存储和操作数据。以下是创建 DataFrame 的代码示例:
import pandas as pd
# 创建一个简单的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)
这里,我们创建了一个包含姓名、年龄和城市的 DataFrame。每个键('Name', 'Age', 'City')对应一列,而键的值是一个列表,表示列中的数据。
2. 数据选择和过滤
Pandas 提供了灵活的数据选择和过滤选项。例如,您可以选择特定的列或基于条件过滤数据。这在数据分析中非常有用:
# 选择特定的列
selected_columns = df[['Name', 'City']]
# 过滤特定的行(例如,选择年龄大于 30 的行)
filtered_rows = df[df['Age'] > 30]
3. 数据清洗:处理 NaN 值
在真实世界的数据集中,经常会遇到缺失值(NaN)。Pandas 提供了处理这些缺失值的方法,例如,您可以用一个特定的值填充它们:
import numpy as np
# 人为添加 NaN 值
df_with_nan = df.copy()
df_with_nan.loc[1, 'Age'] = np.nan
# 填充 NaN 值
df_filled = df_with_nan.fillna({'Age': df_with_nan['Age'].mean()})
在这个例子中,df_with_nan.loc[1, 'Age'] = np.nan
将第二行的 'Age' 列设置为 NaN,代表缺失值。然后,我们用平均年龄填充了所有的 NaN 值。
4. 数据聚合和分组
Pandas 允许您对数据集进行分组,并对每组数据进行聚合计算,如计算平均值、求和等:
# 添加一个分组列
df['Group'] = ['A', 'B', 'A']
# 按 'Group' 分组并计算每组的平均年龄
grouped_data = df.groupby('Group')['Age'].mean()
这里,df.groupby('Group')['Age'].mean()
将 DataFrame 按 'Group' 列的值分组,并计算每个组中 'Age' 列的平均值。
5. 描述性统计
描述性统计是数据分析的一个重要方面。Pandas 提供了 describe
方法,用于快速查看数据的统计摘要:
# 获取描述性统计信息
description = df.describe()
df.describe()
提供了每个数值列的计数、平均值、标准差、最小值、四分位数和最大值。
6. 读取和写入 CSV 文件
Pandas 支持多种格式的数据读写,例如 CSV:
# 写入 CSV 文件
df.to_csv('my_data.csv', index=False)
# 从 CSV 文件读取数据
df_from_csv = pd.read_csv('my_data.csv')
在这里,df.to_csv('my_data.csv', index=False)
将 DataFrame 写入 my_data.csv
文件。然后,我们使用 pd.read_csv('my_data.csv')
从该文件中读取数据。文章来源:https://www.toymoban.com/news/detail-812496.html
总结
Pandas 是 Python 数据分析的强大工具,提供了丰富的功能来处理和分析数据。从创建和修改 DataFrame 到执行复杂的数据过滤、聚合和统计分析,Pandas 使得数据分析变得更加容易和直观。无论是处理小型数据集还是大型复杂的数据集,Pandas 都是数据科学家和分析师的重要工具。文章来源地址https://www.toymoban.com/news/detail-812496.html
到了这里,关于Pandas 常见用法演示及解释的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!