1.实验目的
掌握常见数据预处理方法,熟练运用数据分析方法,并掌握 Python 中的 Numpy、 Pandas 模块提供的数据分析方法。
2.实验内容
1. Pandas 基本数据处理
使用 Pandas 模块,完成以下操作。
(1)创建一个由 0 到 50 之间的整数组成的 10 行 5 列的 dataframe。如下:
(2)汇总每一列的最小值。
(3)按行方向汇总每行数据的总和。
(4)按列方向汇总每列数据的总和。
代码:
#创建一个由 0 到 50 之间的整数组成的 10 行 5 列的 dataframe
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(0, 50).reshape(10, 5))
# 输出 dataframe
print('dataframe:',df)
# 汇总每一列的最小值
min_values = np.min(df, axis=0)
print("每列的最小值:", min_values)
# 按行方向汇总每行数据的总和
row_sums = np.sum(df, axis=1)
print("每行的总和:", row_sums)
# 按列方向汇总每列数据的总和
col_sums = np.sum(df, axis=0)
print("每列的总和:", col_sums)
2. 城市夏季气温分析 在“tpData.csv”文件中存储的是韩国某城市夏季的最高、最低气温数据,时间是
从 2013 年到 2018 年间,日期是从每年的 6 月 30 日到 8 月 30 日。其中 Present_Tmax
字段代表下午 2 点测量的最高温度。Present_Tmin 代表凌晨 4 点测量的最低温度。完 成以下操作。
(1)使用 Pandas 的 read_csv()函数读取“tpData.csv”,并显示数据。 import pandas as pd
df = pd.read_csv('tpData.csv')
#header:Year Month Day Present_Tmax Present_Tmin df
图 4-1 韩国某城市夏季温度数据
(2)按年度分组,查看每年各有多少条数据。 操作提示:
使用 groupby 函数,按 Year 字段分组。
#分组统计
df.groupby('Year').size() #查看组大小结果
(3)按年份统计每年的最高温度的平均值。 操作提示:
使用 groupby 函数,按 Year 字段分组,统计 Present_Tmax 字段的平均值。
df.groupby('Year')['Present_Tmax'].mean()
(4)按月份统计 6、7、8 每个月的最高温度的平均值。
df.groupby('Month')['Present_Tmax'].mean()
(5)按月份统计 6、7、8 每个月的最低温度的平均值。
df.groupby('Month')['Present_Tmin'].mean()
代码:
#使用 Pandas 的 read_csv()函数读取“tpData.csv”,并显示数据
import pandas as pd
df = pd.read_csv(r'D:\tpData.csv')
print(df)
#按年度分组,查看每年各有多少条数据。 操作提
print(df.groupby('Year').size())
#按年份统计每年的最高温度的平均值。 操作提示
print(df.groupby('Year')['Present_Tmax'].mean())
#按月份统计 6、7、8 每个月的最高温度的平均值。
print(df.groupby('Month')['Present_Tmax'].mean())
#按月份统计 6、7、8 每个月的最低温度的平均值。
print(df.groupby('Month')['Present_Tmin'].mean()
文章来源:https://www.toymoban.com/news/detail-845848.html
文章来源地址https://www.toymoban.com/news/detail-845848.html
到了这里,关于Python机器学习实验 Python 数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!