python-数据分析-pandas

这篇具有很好参考价值的文章主要介绍了python-数据分析-pandas。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

4.1 pandas及其数据结构

4.1.2Series数据结构及其创建

第一种:通过标量创建Series

import pandas as pd 
s1=pd.Series(62)
s1
0    62
dtype: int64
import pandas as pd 
s1=pd.Series(62,index=["x","y","z"])
s1
x    62
y    62
z    62
dtype: int64

第二种:通过列表创建Series

import pandas as pd 
s2=pd.Series([30,10,60],index=["x","y","z"])
s2

x    30
y    10
z    60
dtype: int64

第三种:通过字典创建Series

import pandas as pd
s3=pd.Series({"匪警":110,"火警":119,"急救中心":120,"交通事故":122})
s3
匪警        110
火警        119
急救中心    120
交通事故    122
dtype: int64

第四种:通过ndarray创建Series

import pandas as pd
import numpy as np
s4=pd.Series(np.arange(6),index=["a","b","c","d","e","f"])
s4
a    0
b    1
c    2
d    3
e    4
f    5
dtype: int32

values和index

import pandas as pd
s3=pd.Series({"匪警":110,"火警":119,"急救中心":120,"交通事故":122})
s3.index
s3.values
array([110, 119, 120, 122], dtype=int64)

索引和切片

import pandas as pd 
s2=pd.Series([30,10,60],index=["x","y","z"])
s2["x"]
30
s2[0]
30
s2[:2]
x    30
y    10
dtype: int64

4.1.3DataFrame数据结构及其创建

第一种:通过一维列表构成的字典创建DataFrame

import pandas as pd
d1={"姓名":["张三","李四","王五","赵六"],"数学":[87,45,34,98],"语文":[54,76,55,90],"计算机":[34,56,77,87]}
df1=pd.DataFrame(d1)
df1
姓名 数学 语文 计算机
0 张三 87 54 34
1 李四 45 76 56
2 王五 34 55 77
3 赵六 98 90 87
import pandas as pd
d1={"姓名":["张三","李四","王五","赵六"],"数学":[87,45,34,98],"语文":[54,76,55,90],"计算机":[34,56,77,87]}
df1=pd.DataFrame(d1,index=[101,102,103,104])
df1
姓名 数学 语文 计算机
101 张三 87 54 34
102 李四 45 76 56
103 王五 34 55 77
104 赵六 98 90 87

通过二维ndarray创建DataFrame

import pandas as pd
import numpy as np
nd1=np.arange(12).reshape(3,4)
nd1
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
df2=pd.DataFrame(nd1)
df2
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
df2=pd.DataFrame(nd1,index=["a","b","c"])
df2
0 1 2 3
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11

values,index和columns三部分

import pandas as pd
d1={"姓名":["张三","李四","王五","赵六"],"数学":[87,45,34,98],"语文":[54,76,55,90],"计算机":[34,56,77,87]}
df1=pd.DataFrame(d1,index=[202201,202202,202203,202204])
df1
姓名 数学 语文 计算机
202201 张三 87 54 34
202202 李四 45 76 56
202203 王五 34 55 77
202204 赵六 98 90 87
df1.columns
Index(['姓名', '数学', '语文', '计算机'], dtype='object')
df1.index
Int64Index([202201, 202202, 202203, 202204], dtype='int64')
df1.values
array([['张三', 87, 54, 34],
       ['李四', 45, 76, 56],
       ['王五', 34, 55, 77],
       ['赵六', 98, 90, 87]], dtype=object)

4.2利用pandas导入导出数据

导入外部数据

import pandas as pd
f1=pd.read_csv("C:\\Users\\wsy\\Desktop\\a.csv")
f1
a b
0 1 2
1 2 4
2 3 6
3 4 8
4 5 10
5 6 12
6 7 14
7 8 16
8 9 18
import pandas as pd
f1=pd.read_csv("C:\\Users\\wsy\\Desktop\\b.csv",encoding="gbk")
f1
青海 西宁
0 1 2
1 2 4
2 3 6
3 4 8
4 5 10
5 6 12
6 7 14
7 8 16
8 9 18

导出外部数据

4.3数据概览及预处理

import pandas as pd
pd.set_option("display.unicode.east_asian_width",True)#解决数据输出时列名不对齐的问题
df=pd.read_excel("C:\\Users\\wsy\\Desktop\\cj.xlsx")
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00
21 2020844023 刘嘉雯 会计学 89.575000 86.0 90.00 100.0 103.00
22 2020844024 刘浩天 会计学 85.100000 83.2 85.00 100.0 98.00
23 2020844025 刘宇 NaN 75.200000 85.6 76.00 100.0 89.00
24 2020844026 胡童 会计学 84.050000 86.0 91.00 100.0 119.00
25 2020844027 丁灿 会计学 88.750000 86.2 66.00 100.0 79.00
26 2020844028 郑武田 会计学 89.550000 87.4 91.00 NaN 104.00
27 2020844029 金耀 会计学 79.450000 87.2 68.00 100.0 81.00
28 2020844030 庞博 会计学 89.700000 92.0 92.00 100.0 105.00
29 2020848001 王春杨 会计学 88.100000 89.8 84.00 100.0 97.00
30 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
31 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
32 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
33 2020848003 张淳 会计学 91.300000 92.2 81.32 100.0 94.32
34 2020848004 王佳琳 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00
35 2020848005 郑彤 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00
36 2020848006 张鹤同 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50
37 2020848007 苏远 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32
38 2020848008 方雨桃 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00
39 2020848010 闫宇 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00
40 2020848011 张田田 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32
41 2020848013 曹一一 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32
42 2020848014 贾晶晶 NaN 84.450000 93.0 82.66 100.0 95.66
43 2020848015 贾淏文 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00
44 2020848016 杨帆 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00
45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00
46 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
47 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
48 2020848019 张雨桐 金融学 79.150000 92.4 83.00 100.0 96.00
49 2020848020 孟德坤 金融学 83.450000 87.4 80.66 100.0 93.66
50 2020848021 王少祖 金融学 82.950000 91.6 78.00 90.0 91.00
51 2020848023 黄金雨 金融学 79.950000 89.8 86.00 100.0 99.00
52 2020848024 汤佳怡 金融学 86.600000 83.4 88.32 100.0 101.32
53 2020848027 热孜耶·买买提 金融学 92.700000 93.2 86.32 100.0 99.32
54 2020848028 奴热艾力·雪艾力 金融学 15.000000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300000 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425000 85.4 71.66 100.0 84.66

4.3.1数据概览分析

利用基础属性查看数据基本信息

print("索引:",df.index)
索引: RangeIndex(start=0, stop=57, step=1)
print("列名:",df.columns)
列名: Index(['学号', '姓名', '性别', '专业', '英语', '数学', 'Python', '选修',
       '管理学'], dtype='object')
print("数据元素:",df.values[:10])
数据元素: [[2020802045 '魏天' '男' '信息管理与信息系统' 67.11666666666667 90.80000000000001
  93.0 95.0 106.0]
 [2020844001 '郭夏' '男' '国际贸易' 91.05 83.4 86.0 100.0 99.0]
 [2020844002 '王晓加' '男' nan 54.2 83.4 74.0 nan 90.0]
 [2020844003 '黄婷婷' '女' '国际贸易' 87.8 91.4 79.66 95.0 92.66]
 [2020844004 '赵小瑜' nan '国际贸易' 61.15 82.2 84.66 100.0 97.66]
 [2020844005 '辛禧' '男' '国际贸易' 65.125 88.6 68.0 80.0 81.0]
 [2020844007 '王晨' '男' '国际贸易' 62.4 80.0 65.0 90.0 78.0]
 [2020844008 '韩天' '男' '国际贸易' 96.25 91.0 85.0 97.0 98.0]
 [2020844009 '刘玉' '女' '国际贸易' 89.05 91.4 80.32 100.0 93.32]
 [2020844010 '谢亚鹏' '男' '市场营销' 70.5 85.2 60.0 90.0 73.0]]
print("数据类型:\n",df.dtypes)
数据类型:
 学号        int64
姓名       object
性别       object
专业       object
英语      float64
数学      float64
Python    float64
选修      float64
管理学    float64
dtype: object

利用基础属性查看数据规模

print("元素个数:",df.size)
元素个数: 513
print("维度数:",df.ndim)
维度数: 2
print("形状:",df.shape)
形状: (57, 9)
print("行数:",df.index.size)
行数: 57
print("列数",df.columns.size)
列数 9

利用常用方法查看样本数据

df.head()
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
df.head(2)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.0 95.0 106.0
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.0 100.0 99.0
df.tail()
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
52 2020848024 汤佳怡 金融学 86.600 83.4 88.32 100.0 101.32
53 2020848027 热孜耶·买买提 金融学 92.700 93.2 86.32 100.0 99.32
54 2020848028 奴热艾力·雪艾力 金融学 15.000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425 85.4 71.66 100.0 84.66
df.tail(3)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
54 2020848028 奴热艾力·雪艾力 金融学 15.000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425 85.4 71.66 100.0 84.66

利用常用方法查看数据质量

print(df.notnull())#查看数据的缺失值情况
    学号  姓名   性别   专业  英语  数学  Python   选修  管理学
0   True  True   True   True  True  True    True   True    True
1   True  True   True   True  True  True    True   True    True
2   True  True   True  False  True  True    True  False    True
3   True  True   True   True  True  True    True   True    True
4   True  True  False   True  True  True    True   True    True
5   True  True   True   True  True  True    True   True    True
6   True  True   True   True  True  True    True   True    True
7   True  True   True   True  True  True    True   True    True
8   True  True   True   True  True  True    True   True    True
9   True  True   True   True  True  True    True   True    True
10  True  True   True   True  True  True    True  False    True
11  True  True   True   True  True  True    True   True    True
12  True  True   True   True  True  True    True   True    True
13  True  True   True   True  True  True    True   True    True
14  True  True   True   True  True  True    True   True    True
15  True  True   True   True  True  True    True   True    True
16  True  True   True   True  True  True    True   True    True
17  True  True   True   True  True  True    True   True    True
18  True  True   True   True  True  True    True   True    True
19  True  True   True   True  True  True    True   True    True
20  True  True  False   True  True  True    True   True    True
21  True  True   True   True  True  True    True   True    True
22  True  True   True   True  True  True    True   True    True
23  True  True   True  False  True  True    True   True    True
24  True  True   True   True  True  True    True   True    True
25  True  True   True   True  True  True    True   True    True
26  True  True   True   True  True  True    True  False    True
27  True  True   True   True  True  True    True   True    True
28  True  True   True   True  True  True    True   True    True
29  True  True   True   True  True  True    True   True    True
30  True  True   True   True  True  True    True   True    True
31  True  True   True   True  True  True    True   True    True
32  True  True   True   True  True  True    True   True    True
33  True  True   True   True  True  True    True   True    True
34  True  True   True   True  True  True    True   True    True
35  True  True   True   True  True  True    True   True    True
36  True  True   True   True  True  True    True   True    True
37  True  True   True   True  True  True    True   True    True
38  True  True   True   True  True  True    True   True    True
39  True  True   True   True  True  True    True   True    True
40  True  True   True   True  True  True    True   True    True
41  True  True   True   True  True  True    True   True    True
42  True  True   True  False  True  True    True   True    True
43  True  True   True   True  True  True    True   True    True
44  True  True   True   True  True  True    True  False    True
45  True  True  False   True  True  True    True   True    True
46  True  True   True   True  True  True    True   True    True
47  True  True   True   True  True  True    True   True    True
48  True  True   True   True  True  True    True   True    True
49  True  True   True   True  True  True    True   True    True
50  True  True   True   True  True  True    True   True    True
51  True  True   True   True  True  True    True   True    True
52  True  True   True   True  True  True    True   True    True
53  True  True   True   True  True  True    True   True    True
54  True  True   True   True  True  True    True   True    True
55  True  True   True   True  True  True    True   True    True
56  True  True   True   True  True  True    True   True    True
print(df.isnull())#isna()是isnull()的别名
     学号   姓名   性别   专业   英语   数学  Python   选修  管理学
0   False  False  False  False  False  False   False  False   False
1   False  False  False  False  False  False   False  False   False
2   False  False  False   True  False  False   False   True   False
3   False  False  False  False  False  False   False  False   False
4   False  False   True  False  False  False   False  False   False
5   False  False  False  False  False  False   False  False   False
6   False  False  False  False  False  False   False  False   False
7   False  False  False  False  False  False   False  False   False
8   False  False  False  False  False  False   False  False   False
9   False  False  False  False  False  False   False  False   False
10  False  False  False  False  False  False   False   True   False
11  False  False  False  False  False  False   False  False   False
12  False  False  False  False  False  False   False  False   False
13  False  False  False  False  False  False   False  False   False
14  False  False  False  False  False  False   False  False   False
15  False  False  False  False  False  False   False  False   False
16  False  False  False  False  False  False   False  False   False
17  False  False  False  False  False  False   False  False   False
18  False  False  False  False  False  False   False  False   False
19  False  False  False  False  False  False   False  False   False
20  False  False   True  False  False  False   False  False   False
21  False  False  False  False  False  False   False  False   False
22  False  False  False  False  False  False   False  False   False
23  False  False  False   True  False  False   False  False   False
24  False  False  False  False  False  False   False  False   False
25  False  False  False  False  False  False   False  False   False
26  False  False  False  False  False  False   False   True   False
27  False  False  False  False  False  False   False  False   False
28  False  False  False  False  False  False   False  False   False
29  False  False  False  False  False  False   False  False   False
30  False  False  False  False  False  False   False  False   False
31  False  False  False  False  False  False   False  False   False
32  False  False  False  False  False  False   False  False   False
33  False  False  False  False  False  False   False  False   False
34  False  False  False  False  False  False   False  False   False
35  False  False  False  False  False  False   False  False   False
36  False  False  False  False  False  False   False  False   False
37  False  False  False  False  False  False   False  False   False
38  False  False  False  False  False  False   False  False   False
39  False  False  False  False  False  False   False  False   False
40  False  False  False  False  False  False   False  False   False
41  False  False  False  False  False  False   False  False   False
42  False  False  False   True  False  False   False  False   False
43  False  False  False  False  False  False   False  False   False
44  False  False  False  False  False  False   False   True   False
45  False  False   True  False  False  False   False  False   False
46  False  False  False  False  False  False   False  False   False
47  False  False  False  False  False  False   False  False   False
48  False  False  False  False  False  False   False  False   False
49  False  False  False  False  False  False   False  False   False
50  False  False  False  False  False  False   False  False   False
51  False  False  False  False  False  False   False  False   False
52  False  False  False  False  False  False   False  False   False
53  False  False  False  False  False  False   False  False   False
54  False  False  False  False  False  False   False  False   False
55  False  False  False  False  False  False   False  False   False
56  False  False  False  False  False  False   False  False   False
print("df中每个特征的缺失情况:\n",df.isna().sum())
df中每个特征的缺失情况:
 学号      0
姓名      0
性别      3
专业      3
英语      0
数学      0
Python    0
选修      4
管理学    0
dtype: int64
#判断数据中是否有重复的
df.duplicated()
0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31     True
32     True
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
42    False
43    False
44    False
45    False
46    False
47     True
48    False
49    False
50    False
51    False
52    False
53    False
54    False
55    False
56    False
dtype: bool
#判断指定列中是否有重复的
df.duplicated("姓名")
0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31     True
32     True
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
41    False
42    False
43    False
44    False
45    False
46    False
47     True
48    False
49    False
50    False
51    False
52    False
53    False
54    False
55    False
56    False
dtype: bool
df.info()#给出样本数据的相关信息概览 :行数,列数,列索引,列非空值个数,列类型,内存占用
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57 entries, 0 to 56
Data columns (total 9 columns):
学号        57 non-null int64
姓名        57 non-null object
性别        54 non-null object
专业        54 non-null object
英语        57 non-null float64
数学        57 non-null float64
Python    57 non-null float64
选修        53 non-null float64
管理学       57 non-null float64
dtypes: float64(5), int64(1), object(3)
memory usage: 4.1+ KB

4.3.2数据清洗

import pandas as pd
pd.set_option("display.unicode.east_asian_width",True)#解决数据输出时列名不对齐的问题
df=pd.read_excel("C:\\Users\\wsy\\Desktop\\cj.xlsx")
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00
21 2020844023 刘嘉雯 会计学 89.575000 86.0 90.00 100.0 103.00
22 2020844024 刘浩天 会计学 85.100000 83.2 85.00 100.0 98.00
23 2020844025 刘宇 NaN 75.200000 85.6 76.00 100.0 89.00
24 2020844026 胡童 会计学 84.050000 86.0 91.00 100.0 119.00
25 2020844027 丁灿 会计学 88.750000 86.2 66.00 100.0 79.00
26 2020844028 郑武田 会计学 89.550000 87.4 91.00 NaN 104.00
27 2020844029 金耀 会计学 79.450000 87.2 68.00 100.0 81.00
28 2020844030 庞博 会计学 89.700000 92.0 92.00 100.0 105.00
29 2020848001 王春杨 会计学 88.100000 89.8 84.00 100.0 97.00
30 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
31 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
32 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
33 2020848003 张淳 会计学 91.300000 92.2 81.32 100.0 94.32
34 2020848004 王佳琳 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00
35 2020848005 郑彤 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00
36 2020848006 张鹤同 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50
37 2020848007 苏远 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32
38 2020848008 方雨桃 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00
39 2020848010 闫宇 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00
40 2020848011 张田田 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32
41 2020848013 曹一一 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32
42 2020848014 贾晶晶 NaN 84.450000 93.0 82.66 100.0 95.66
43 2020848015 贾淏文 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00
44 2020848016 杨帆 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00
45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00
46 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
47 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
48 2020848019 张雨桐 金融学 79.150000 92.4 83.00 100.0 96.00
49 2020848020 孟德坤 金融学 83.450000 87.4 80.66 100.0 93.66
50 2020848021 王少祖 金融学 82.950000 91.6 78.00 90.0 91.00
51 2020848023 黄金雨 金融学 79.950000 89.8 86.00 100.0 99.00
52 2020848024 汤佳怡 金融学 86.600000 83.4 88.32 100.0 101.32
53 2020848027 热孜耶·买买提 金融学 92.700000 93.2 86.32 100.0 99.32
54 2020848028 奴热艾力·雪艾力 金融学 15.000000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300000 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425000 85.4 71.66 100.0 84.66

缺失值处理

#存在任一缺失值即删除
df1=df.dropna()
print("删出前",df.shape)
print("删出后",df1.shape)

删出前 (57, 9)
删出后 (48, 9)
#所有列均为缺失值即删除
df1=df.dropna(how="all")
print("删出前",df.shape)
print("删出后",df1.shape)
删出前 (57, 9)
删出后 (57, 9)
#指定列均为缺失值即删除
df1=df.dropna(how="all",subset=["专业","选修"])
print("删出前",df.shape)
print("删出后",df1.shape)
删出前 (57, 9)
删出后 (56, 9)
#保留某些属性不存在缺失值的情况
df1=df[df["性别"].notnull()]
print("删出前",df.shape)
print("删出后",df1.shape)
df1
删出前 (57, 9)
删出后 (54, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
21 2020844023 刘嘉雯 会计学 89.575000 86.0 90.00 100.0 103.00
22 2020844024 刘浩天 会计学 85.100000 83.2 85.00 100.0 98.00
23 2020844025 刘宇 NaN 75.200000 85.6 76.00 100.0 89.00
24 2020844026 胡童 会计学 84.050000 86.0 91.00 100.0 119.00
25 2020844027 丁灿 会计学 88.750000 86.2 66.00 100.0 79.00
26 2020844028 郑武田 会计学 89.550000 87.4 91.00 NaN 104.00
27 2020844029 金耀 会计学 79.450000 87.2 68.00 100.0 81.00
28 2020844030 庞博 会计学 89.700000 92.0 92.00 100.0 105.00
29 2020848001 王春杨 会计学 88.100000 89.8 84.00 100.0 97.00
30 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
31 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
32 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
33 2020848003 张淳 会计学 91.300000 92.2 81.32 100.0 94.32
34 2020848004 王佳琳 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00
35 2020848005 郑彤 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00
36 2020848006 张鹤同 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50
37 2020848007 苏远 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32
38 2020848008 方雨桃 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00
39 2020848010 闫宇 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00
40 2020848011 张田田 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32
41 2020848013 曹一一 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32
42 2020848014 贾晶晶 NaN 84.450000 93.0 82.66 100.0 95.66
43 2020848015 贾淏文 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00
44 2020848016 杨帆 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00
46 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
47 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
48 2020848019 张雨桐 金融学 79.150000 92.4 83.00 100.0 96.00
49 2020848020 孟德坤 金融学 83.450000 87.4 80.66 100.0 93.66
50 2020848021 王少祖 金融学 82.950000 91.6 78.00 90.0 91.00
51 2020848023 黄金雨 金融学 79.950000 89.8 86.00 100.0 99.00
52 2020848024 汤佳怡 金融学 86.600000 83.4 88.32 100.0 101.32
53 2020848027 热孜耶·买买提 金融学 92.700000 93.2 86.32 100.0 99.32
54 2020848028 奴热艾力·雪艾力 金融学 15.000000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300000 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425000 85.4 71.66 100.0 84.66
#将缺失值NaN填充为0
df["选修"].fillna(0)
0      95.0
1     100.0
2       0.0
3      95.0
4     100.0
5      80.0
6      90.0
7      97.0
8     100.0
9      90.0
10      0.0
11    100.0
12    100.0
13     80.0
14    100.0
15     95.0
16    100.0
17    100.0
18    100.0
19     87.0
20    100.0
21    100.0
22    100.0
23    100.0
24    100.0
25    100.0
26      0.0
27    100.0
28    100.0
29    100.0
30    100.0
31    100.0
32    100.0
33    100.0
34    100.0
35    100.0
36    100.0
37     68.0
38    100.0
39    100.0
40     77.0
41    100.0
42    100.0
43    100.0
44      0.0
45    100.0
46     90.0
47     90.0
48    100.0
49    100.0
50     90.0
51    100.0
52    100.0
53    100.0
54    100.0
55    100.0
56    100.0
Name: 选修, dtype: float64
#将缺失值NaN填充与后面的值相同
df["选修"].fillna(method="ffill")
0      95.0
1     100.0
2      95.0
3      95.0
4     100.0
5      80.0
6      90.0
7      97.0
8     100.0
9      90.0
10    100.0
11    100.0
12    100.0
13     80.0
14    100.0
15     95.0
16    100.0
17    100.0
18    100.0
19     87.0
20    100.0
21    100.0
22    100.0
23    100.0
24    100.0
25    100.0
26    100.0
27    100.0
28    100.0
29    100.0
30    100.0
31    100.0
32    100.0
33    100.0
34    100.0
35    100.0
36    100.0
37     68.0
38    100.0
39    100.0
40     77.0
41    100.0
42    100.0
43    100.0
44    100.0
45    100.0
46     90.0
47     90.0
48    100.0
49    100.0
50     90.0
51    100.0
52    100.0
53    100.0
54    100.0
55    100.0
56    100.0
Name: 选修, dtype: float64
import numpy as np
#将缺失值NaN填充选修课的平均分
df["选修"].fillna(np.mean(df["选修"]))
0      95.000000
1     100.000000
2      96.679245
3      95.000000
4     100.000000
5      80.000000
6      90.000000
7      97.000000
8     100.000000
9      90.000000
10     96.679245
11    100.000000
12    100.000000
13     80.000000
14    100.000000
15     95.000000
16    100.000000
17    100.000000
18    100.000000
19     87.000000
20    100.000000
21    100.000000
22    100.000000
23    100.000000
24    100.000000
25    100.000000
26     96.679245
27    100.000000
28    100.000000
29    100.000000
30    100.000000
31    100.000000
32    100.000000
33    100.000000
34    100.000000
35    100.000000
36    100.000000
37     68.000000
38    100.000000
39    100.000000
40     77.000000
41    100.000000
42    100.000000
43    100.000000
44     96.679245
45    100.000000
46     90.000000
47     90.000000
48    100.000000
49    100.000000
50     90.000000
51    100.000000
52    100.000000
53    100.000000
54    100.000000
55    100.000000
56    100.000000
Name: 选修, dtype: float64

重复值处理

#去除全部重复数据
df1=df.drop_duplicates()
print("去重前:",df.shape)
print("去重后:",df1.shape)
去重前: (57, 9)
去重后: (54, 9)
#去除指定列中重复数据
df1=df.drop_duplicates(["专业"])
print("去重前:",df.shape)
print("去重后:",df1.shape)
df1
去重前: (57, 9)
去重后: (6, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.0 95.0 106.0
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.0 100.0 99.0
2 2020844002 王晓加 NaN 54.200000 83.4 74.0 NaN 90.0
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.0 90.0 73.0
19 2020844021 李赫桐 会计学 88.276667 86.8 83.0 87.0 96.0
48 2020848019 张雨桐 金融学 79.150000 92.4 83.0 100.0 96.0
#去除指定列中重复数据,设置keep参数
df1=df.drop_duplicates(["专业"],keep="last")
print("去重前:",df.shape)
print("去重后:",df1.shape)
df1
去重前: (57, 9)
去重后: (6, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
8 2020844009 刘玉 国际贸易 89.050 91.4 80.32 100.0 93.32
18 2020844020 张家齐 市场营销 95.450 91.0 96.00 100.0 109.00
33 2020848003 张淳 会计学 91.300 92.2 81.32 100.0 94.32
42 2020848014 贾晶晶 NaN 84.450 93.0 82.66 100.0 95.66
47 2020848018 郭晓舒 信息管理与信息系统 82.500 83.8 73.00 90.0 86.00
56 2020848031 任旭 金融学 83.425 85.4 71.66 100.0 84.66
#去除指定若干列中重复数据
df1=df.drop_duplicates(["学号","姓名"])
print("去重前:",df.shape)
print("去重后:",df1.shape)
df1
去重前: (57, 9)
去重后: (54, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00
21 2020844023 刘嘉雯 会计学 89.575000 86.0 90.00 100.0 103.00
22 2020844024 刘浩天 会计学 85.100000 83.2 85.00 100.0 98.00
23 2020844025 刘宇 NaN 75.200000 85.6 76.00 100.0 89.00
24 2020844026 胡童 会计学 84.050000 86.0 91.00 100.0 119.00
25 2020844027 丁灿 会计学 88.750000 86.2 66.00 100.0 79.00
26 2020844028 郑武田 会计学 89.550000 87.4 91.00 NaN 104.00
27 2020844029 金耀 会计学 79.450000 87.2 68.00 100.0 81.00
28 2020844030 庞博 会计学 89.700000 92.0 92.00 100.0 105.00
29 2020848001 王春杨 会计学 88.100000 89.8 84.00 100.0 97.00
30 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
33 2020848003 张淳 会计学 91.300000 92.2 81.32 100.0 94.32
34 2020848004 王佳琳 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00
35 2020848005 郑彤 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00
36 2020848006 张鹤同 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50
37 2020848007 苏远 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32
38 2020848008 方雨桃 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00
39 2020848010 闫宇 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00
40 2020848011 张田田 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32
41 2020848013 曹一一 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32
42 2020848014 贾晶晶 NaN 84.450000 93.0 82.66 100.0 95.66
43 2020848015 贾淏文 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00
44 2020848016 杨帆 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00
45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00
46 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
48 2020848019 张雨桐 金融学 79.150000 92.4 83.00 100.0 96.00
49 2020848020 孟德坤 金融学 83.450000 87.4 80.66 100.0 93.66
50 2020848021 王少祖 金融学 82.950000 91.6 78.00 90.0 91.00
51 2020848023 黄金雨 金融学 79.950000 89.8 86.00 100.0 99.00
52 2020848024 汤佳怡 金融学 86.600000 83.4 88.32 100.0 101.32
53 2020848027 热孜耶·买买提 金融学 92.700000 93.2 86.32 100.0 99.32
54 2020848028 奴热艾力·雪艾力 金融学 15.000000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300000 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425000 85.4 71.66 100.0 84.66

4.3.3数据的抽取和合并

import pandas as pd
pd.set_option("display.unicode.east_asian_width",True)#解决数据输出时列名不对齐的问题
df=pd.read_excel("C:\\Users\\wsy\\Desktop\\cj.xlsx")

数据抽取

1、抽取列
df.学号
0     2020802045
1     2020844001
2     2020844002
3     2020844003
4     2020844004
5     2020844005
6     2020844007
7     2020844008
8     2020844009
9     2020844010
10    2020844011
11    2020844012
12    2020844013
13    2020844014
14    2020844015
15    2020844017
16    2020844018
17    2020844019
18    2020844020
19    2020844021
20    2020844022
21    2020844023
22    2020844024
23    2020844025
24    2020844026
25    2020844027
26    2020844028
27    2020844029
28    2020844030
29    2020848001
30    2020848002
31    2020848002
32    2020848002
33    2020848003
34    2020848004
35    2020848005
36    2020848006
37    2020848007
38    2020848008
39    2020848010
40    2020848011
41    2020848013
42    2020848014
43    2020848015
44    2020848016
45    2020848017
46    2020848018
47    2020848018
48    2020848019
49    2020848020
50    2020848021
51    2020848023
52    2020848024
53    2020848027
54    2020848028
55    2020848029
56    2020848031
Name: 学号, dtype: int64
df["学号"]
type(df["学号"])
pandas.core.series.Series
df[["学号"]]
type(df[["学号"]])
pandas.core.frame.DataFrame
df[["学号","姓名","专业"]]
学号 姓名 专业
0 2020802045 魏天 信息管理与信息系统
1 2020844001 郭夏 国际贸易
2 2020844002 王晓加 NaN
3 2020844003 黄婷婷 国际贸易
4 2020844004 赵小瑜 国际贸易
5 2020844005 辛禧 国际贸易
6 2020844007 王晨 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
9 2020844010 谢亚鹏 市场营销
10 2020844011 娄天楠 市场营销
11 2020844012 唐喆 市场营销
12 2020844013 史昀 市场营销
13 2020844014 刘欣语 市场营销
14 2020844015 王同 市场营销
15 2020844017 武天一 市场营销
16 2020844018 张析 市场营销
17 2020844019 陈雨涵 市场营销
18 2020844020 张家齐 市场营销
19 2020844021 李赫桐 会计学
20 2020844022 关帅 会计学
21 2020844023 刘嘉雯 会计学
22 2020844024 刘浩天 会计学
23 2020844025 刘宇 NaN
24 2020844026 胡童 会计学
25 2020844027 丁灿 会计学
26 2020844028 郑武田 会计学
27 2020844029 金耀 会计学
28 2020844030 庞博 会计学
29 2020848001 王春杨 会计学
30 2020848002 陈小恬 会计学
31 2020848002 陈小恬 会计学
32 2020848002 陈小恬 会计学
33 2020848003 张淳 会计学
34 2020848004 王佳琳 信息管理与信息系统
35 2020848005 郑彤 信息管理与信息系统
36 2020848006 张鹤同 信息管理与信息系统
37 2020848007 苏远 信息管理与信息系统
38 2020848008 方雨桃 信息管理与信息系统
39 2020848010 闫宇 信息管理与信息系统
40 2020848011 张田田 信息管理与信息系统
41 2020848013 曹一一 信息管理与信息系统
42 2020848014 贾晶晶 NaN
43 2020848015 贾淏文 信息管理与信息系统
44 2020848016 杨帆 信息管理与信息系统
45 2020848017 赵迎辰 信息管理与信息系统
46 2020848018 郭晓舒 信息管理与信息系统
47 2020848018 郭晓舒 信息管理与信息系统
48 2020848019 张雨桐 金融学
49 2020848020 孟德坤 金融学
50 2020848021 王少祖 金融学
51 2020848023 黄金雨 金融学
52 2020848024 汤佳怡 金融学
53 2020848027 热孜耶·买买提 金融学
54 2020848028 奴热艾力·雪艾力 金融学
55 2020848029 林可新 金融学
56 2020848031 任旭 金融学
df.loc[:,["学号"]]
学号
0 2020802045
1 2020844001
2 2020844002
3 2020844003
4 2020844004
5 2020844005
6 2020844007
7 2020844008
8 2020844009
9 2020844010
10 2020844011
11 2020844012
12 2020844013
13 2020844014
14 2020844015
15 2020844017
16 2020844018
17 2020844019
18 2020844020
19 2020844021
20 2020844022
21 2020844023
22 2020844024
23 2020844025
24 2020844026
25 2020844027
26 2020844028
27 2020844029
28 2020844030
29 2020848001
30 2020848002
31 2020848002
32 2020848002
33 2020848003
34 2020848004
35 2020848005
36 2020848006
37 2020848007
38 2020848008
39 2020848010
40 2020848011
41 2020848013
42 2020848014
43 2020848015
44 2020848016
45 2020848017
46 2020848018
47 2020848018
48 2020848019
49 2020848020
50 2020848021
51 2020848023
52 2020848024
53 2020848027
54 2020848028
55 2020848029
56 2020848031
df.loc[:,["学号","姓名","专业"]]
学号 姓名 专业
0 2020802045 魏天 信息管理与信息系统
1 2020844001 郭夏 国际贸易
2 2020844002 王晓加 NaN
3 2020844003 黄婷婷 国际贸易
4 2020844004 赵小瑜 国际贸易
5 2020844005 辛禧 国际贸易
6 2020844007 王晨 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
9 2020844010 谢亚鹏 市场营销
10 2020844011 娄天楠 市场营销
11 2020844012 唐喆 市场营销
12 2020844013 史昀 市场营销
13 2020844014 刘欣语 市场营销
14 2020844015 王同 市场营销
15 2020844017 武天一 市场营销
16 2020844018 张析 市场营销
17 2020844019 陈雨涵 市场营销
18 2020844020 张家齐 市场营销
19 2020844021 李赫桐 会计学
20 2020844022 关帅 会计学
21 2020844023 刘嘉雯 会计学
22 2020844024 刘浩天 会计学
23 2020844025 刘宇 NaN
24 2020844026 胡童 会计学
25 2020844027 丁灿 会计学
26 2020844028 郑武田 会计学
27 2020844029 金耀 会计学
28 2020844030 庞博 会计学
29 2020848001 王春杨 会计学
30 2020848002 陈小恬 会计学
31 2020848002 陈小恬 会计学
32 2020848002 陈小恬 会计学
33 2020848003 张淳 会计学
34 2020848004 王佳琳 信息管理与信息系统
35 2020848005 郑彤 信息管理与信息系统
36 2020848006 张鹤同 信息管理与信息系统
37 2020848007 苏远 信息管理与信息系统
38 2020848008 方雨桃 信息管理与信息系统
39 2020848010 闫宇 信息管理与信息系统
40 2020848011 张田田 信息管理与信息系统
41 2020848013 曹一一 信息管理与信息系统
42 2020848014 贾晶晶 NaN
43 2020848015 贾淏文 信息管理与信息系统
44 2020848016 杨帆 信息管理与信息系统
45 2020848017 赵迎辰 信息管理与信息系统
46 2020848018 郭晓舒 信息管理与信息系统
47 2020848018 郭晓舒 信息管理与信息系统
48 2020848019 张雨桐 金融学
49 2020848020 孟德坤 金融学
50 2020848021 王少祖 金融学
51 2020848023 黄金雨 金融学
52 2020848024 汤佳怡 金融学
53 2020848027 热孜耶·买买提 金融学
54 2020848028 奴热艾力·雪艾力 金融学
55 2020848029 林可新 金融学
56 2020848031 任旭 金融学
df.iloc[:,[0,1,3]]
学号 姓名 专业
0 2020802045 魏天 信息管理与信息系统
1 2020844001 郭夏 国际贸易
2 2020844002 王晓加 NaN
3 2020844003 黄婷婷 国际贸易
4 2020844004 赵小瑜 国际贸易
5 2020844005 辛禧 国际贸易
6 2020844007 王晨 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
9 2020844010 谢亚鹏 市场营销
10 2020844011 娄天楠 市场营销
11 2020844012 唐喆 市场营销
12 2020844013 史昀 市场营销
13 2020844014 刘欣语 市场营销
14 2020844015 王同 市场营销
15 2020844017 武天一 市场营销
16 2020844018 张析 市场营销
17 2020844019 陈雨涵 市场营销
18 2020844020 张家齐 市场营销
19 2020844021 李赫桐 会计学
20 2020844022 关帅 会计学
21 2020844023 刘嘉雯 会计学
22 2020844024 刘浩天 会计学
23 2020844025 刘宇 NaN
24 2020844026 胡童 会计学
25 2020844027 丁灿 会计学
26 2020844028 郑武田 会计学
27 2020844029 金耀 会计学
28 2020844030 庞博 会计学
29 2020848001 王春杨 会计学
30 2020848002 陈小恬 会计学
31 2020848002 陈小恬 会计学
32 2020848002 陈小恬 会计学
33 2020848003 张淳 会计学
34 2020848004 王佳琳 信息管理与信息系统
35 2020848005 郑彤 信息管理与信息系统
36 2020848006 张鹤同 信息管理与信息系统
37 2020848007 苏远 信息管理与信息系统
38 2020848008 方雨桃 信息管理与信息系统
39 2020848010 闫宇 信息管理与信息系统
40 2020848011 张田田 信息管理与信息系统
41 2020848013 曹一一 信息管理与信息系统
42 2020848014 贾晶晶 NaN
43 2020848015 贾淏文 信息管理与信息系统
44 2020848016 杨帆 信息管理与信息系统
45 2020848017 赵迎辰 信息管理与信息系统
46 2020848018 郭晓舒 信息管理与信息系统
47 2020848018 郭晓舒 信息管理与信息系统
48 2020848019 张雨桐 金融学
49 2020848020 孟德坤 金融学
50 2020848021 王少祖 金融学
51 2020848023 黄金雨 金融学
52 2020848024 汤佳怡 金融学
53 2020848027 热孜耶·买买提 金融学
54 2020848028 奴热艾力·雪艾力 金融学
55 2020848029 林可新 金融学
56 2020848031 任旭 金融学
2、抽取行
df.loc[1:20,]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00
df.iloc[1:20,]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
df.loc[[1,2,3,6,7],]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
1 2020844001 郭夏 国际贸易 91.05 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.20 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.80 91.4 79.66 95.0 92.66
6 2020844007 王晨 国际贸易 62.40 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.25 91.0 85.00 97.0 98.00
df.iloc[[1,2,3,16,7],]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
1 2020844001 郭夏 国际贸易 91.05 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.20 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.80 91.4 79.66 95.0 92.66
6 2020844007 王晨 国际贸易 62.40 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.25 91.0 85.00 97.0 98.00
df.loc[df.英语>90,]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
1 2020844001 郭夏 国际贸易 91.05 83.4 86.00 100.0 99.00
7 2020844008 韩天 国际贸易 96.25 91.0 85.00 97.0 98.00
17 2020844019 陈雨涵 市场营销 95.20 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.45 91.0 96.00 100.0 109.00
33 2020848003 张淳 会计学 91.30 92.2 81.32 100.0 94.32
37 2020848007 苏远 信息管理与信息系统 90.25 89.2 79.32 68.0 92.32
38 2020848008 方雨桃 信息管理与信息系统 93.10 86.2 83.00 100.0 96.00
40 2020848011 张田田 信息管理与信息系统 91.20 89.6 96.32 77.0 109.32
44 2020848016 杨帆 信息管理与信息系统 98.70 87.6 95.00 NaN 108.00
53 2020848027 热孜耶·买买提 金融学 92.70 93.2 86.32 100.0 99.32
4、抽取行列
df[["学号","姓名","专业"]][:10]
学号 姓名 专业
0 2020802045 魏天 信息管理与信息系统
1 2020844001 郭夏 国际贸易
2 2020844002 王晓加 NaN
3 2020844003 黄婷婷 国际贸易
4 2020844004 赵小瑜 国际贸易
5 2020844005 辛禧 国际贸易
6 2020844007 王晨 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
9 2020844010 谢亚鹏 市场营销
df[["学号","姓名","专业"]][df.数学>90]
学号 姓名 专业
0 2020802045 魏天 信息管理与信息系统
3 2020844003 黄婷婷 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
14 2020844015 王同 市场营销
16 2020844018 张析 市场营销
17 2020844019 陈雨涵 市场营销
18 2020844020 张家齐 市场营销
20 2020844022 关帅 会计学
28 2020844030 庞博 会计学
30 2020848002 陈小恬 会计学
31 2020848002 陈小恬 会计学
32 2020848002 陈小恬 会计学
33 2020848003 张淳 会计学
34 2020848004 王佳琳 信息管理与信息系统
42 2020848014 贾晶晶 NaN
48 2020848019 张雨桐 金融学
50 2020848021 王少祖 金融学
53 2020848027 热孜耶·买买提 金融学
df.loc[1:10,["学号","姓名","专业"]]
学号 姓名 专业
1 2020844001 郭夏 国际贸易
2 2020844002 王晓加 NaN
3 2020844003 黄婷婷 国际贸易
4 2020844004 赵小瑜 国际贸易
5 2020844005 辛禧 国际贸易
6 2020844007 王晨 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
9 2020844010 谢亚鹏 市场营销
10 2020844011 娄天楠 市场营销
df.iloc[1:10,2:5]
性别 专业 英语
1 国际贸易 91.050
2 NaN 54.200
3 国际贸易 87.800
4 NaN 国际贸易 61.150
5 国际贸易 65.125
6 国际贸易 62.400
7 国际贸易 96.250
8 国际贸易 89.050
9 市场营销 70.500

数据合并

df1=df[["学号","姓名","专业"]][:10]
df2=df[["学号","Python"]][:10]
df3=df[["数学","选修"]][:10]
df4=df.loc[20:25,["学号","姓名","专业"]]
df1
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.0 95.0 106.0
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.0 100.0 99.0
2 2020844002 王晓加 NaN 54.200000 83.4 74.0 NaN 90.0
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.0 90.0 73.0
19 2020844021 李赫桐 会计学 88.276667 86.8 83.0 87.0 96.0
48 2020848019 张雨桐 金融学 79.150000 92.4 83.0 100.0 96.0
df2
学号 Python
0 2020802045 93.00
1 2020844001 86.00
2 2020844002 74.00
3 2020844003 79.66
4 2020844004 84.66
5 2020844005 68.00
6 2020844007 65.00
7 2020844008 85.00
8 2020844009 80.32
9 2020844010 60.00
1、按列合并
df1.join(df2)#有同名列,无法区分,报错
---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

<ipython-input-237-92ca22d0224c> in <module>()
----> 1 df1.join(df2)#有同名列,无法区分,报错


D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py in join(self, other, on, how, lsuffix, rsuffix, sort)
   6334         # For SparseDataFrame's benefit
   6335         return self._join_compat(other, on=on, how=how, lsuffix=lsuffix,
-> 6336                                  rsuffix=rsuffix, sort=sort)
   6337 
   6338     def _join_compat(self, other, on=None, how='left', lsuffix='', rsuffix='',


D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py in _join_compat(self, other, on, how, lsuffix, rsuffix, sort)
   6349             return merge(self, other, left_on=on, how=how,
   6350                          left_index=on is None, right_index=True,
-> 6351                          suffixes=(lsuffix, rsuffix), sort=sort)
   6352         else:
   6353             if on is not None:


D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
     60                          copy=copy, indicator=indicator,
     61                          validate=validate)
---> 62     return op.get_result()
     63 
     64 


D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in get_result(self)
    572 
    573         llabels, rlabels = items_overlap_with_suffix(ldata.items, lsuf,
--> 574                                                      rdata.items, rsuf)
    575 
    576         lindexers = {1: left_indexer} if left_indexer is not None else {}


D:\anacoda\anzhuang\lib\site-packages\pandas\core\internals.py in items_overlap_with_suffix(left, lsuffix, right, rsuffix)
   5242         if not lsuffix and not rsuffix:
   5243             raise ValueError('columns overlap but no suffix specified: '
-> 5244                              '{rename}'.format(rename=to_rename))
   5245 
   5246         def lrenamer(x):


ValueError: columns overlap but no suffix specified: Index(['学号', 'Python'], dtype='object')
df1.join(df3)#默认以index为连接主键,可以不需要同名列
学号 姓名 专业 数学 选修
0 2020802045 魏天 信息管理与信息系统 90.8 95.0
1 2020844001 郭夏 国际贸易 83.4 100.0
2 2020844002 王晓加 NaN 83.4 NaN
3 2020844003 黄婷婷 国际贸易 91.4 95.0
4 2020844004 赵小瑜 国际贸易 82.2 100.0
5 2020844005 辛禧 国际贸易 88.6 80.0
6 2020844007 王晨 国际贸易 80.0 90.0
7 2020844008 韩天 国际贸易 91.0 97.0
8 2020844009 刘玉 国际贸易 91.4 100.0
9 2020844010 谢亚鹏 市场营销 85.2 90.0
df1.join(df2,lsuffix="x")#给同名列起别名
学号x 姓名 专业 学号 Python
0 2020802045 魏天 信息管理与信息系统 2020802045 93.00
1 2020844001 郭夏 国际贸易 2020844001 86.00
2 2020844002 王晓加 NaN 2020844002 74.00
3 2020844003 黄婷婷 国际贸易 2020844003 79.66
4 2020844004 赵小瑜 国际贸易 2020844004 84.66
5 2020844005 辛禧 国际贸易 2020844005 68.00
6 2020844007 王晨 国际贸易 2020844007 65.00
7 2020844008 韩天 国际贸易 2020844008 85.00
8 2020844009 刘玉 国际贸易 2020844009 80.32
9 2020844010 谢亚鹏 市场营销 2020844010 60.00
df1.merge(df3)#必须有同名列
---------------------------------------------------------------------------

MergeError                                Traceback (most recent call last)

<ipython-input-242-036768b080a3> in <module>()
----> 1 df1.merge(df3)#必须有同名列


D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py in merge(self, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
   6387                      right_on=right_on, left_index=left_index,
   6388                      right_index=right_index, sort=sort, suffixes=suffixes,
-> 6389                      copy=copy, indicator=indicator, validate=validate)
   6390 
   6391     def round(self, decimals=0, *args, **kwargs):


D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
     59                          right_index=right_index, sort=sort, suffixes=suffixes,
     60                          copy=copy, indicator=indicator,
---> 61                          validate=validate)
     62     return op.get_result()
     63 


D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in __init__(self, left, right, how, on, left_on, right_on, axis, left_index, right_index, sort, suffixes, copy, indicator, validate)
    544             warnings.warn(msg, UserWarning)
    545 
--> 546         self._validate_specification()
    547 
    548         # note this function has side effects


D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in _validate_specification(self)
   1033                         'left_index={lidx}, right_index={ridx}'
   1034                         .format(lon=self.left_on, ron=self.right_on,
-> 1035                                 lidx=self.left_index, ridx=self.right_index))
   1036                 if not common_cols.is_unique:
   1037                     raise MergeError("Data columns not unique: {common!r}"


MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False
df1.merge(df2)#可以按照同名列进行连接,自动删除同名列
学号 姓名 专业 Python
0 2020802045 魏天 信息管理与信息系统 93.00
1 2020844001 郭夏 国际贸易 86.00
2 2020844002 王晓加 NaN 74.00
3 2020844003 黄婷婷 国际贸易 79.66
4 2020844004 赵小瑜 国际贸易 84.66
5 2020844005 辛禧 国际贸易 68.00
6 2020844007 王晨 国际贸易 65.00
7 2020844008 韩天 国际贸易 85.00
8 2020844009 刘玉 国际贸易 80.32
9 2020844010 谢亚鹏 市场营销 60.00
ddf=pd.merge(df1,df2)
ddf
学号 姓名 专业 Python
0 2020802045 魏天 信息管理与信息系统 93.00
1 2020844001 郭夏 国际贸易 86.00
2 2020844002 王晓加 NaN 74.00
3 2020844003 黄婷婷 国际贸易 79.66
4 2020844004 赵小瑜 国际贸易 84.66
5 2020844005 辛禧 国际贸易 68.00
6 2020844007 王晨 国际贸易 65.00
7 2020844008 韩天 国际贸易 85.00
8 2020844009 刘玉 国际贸易 80.32
9 2020844010 谢亚鹏 市场营销 60.00
ddf=pd.concat([df1,df2],axis=1)#按行拼接
ddf
学号 姓名 专业 学号 Python
0 2020802045 魏天 信息管理与信息系统 2020802045 93.00
1 2020844001 郭夏 国际贸易 2020844001 86.00
2 2020844002 王晓加 NaN 2020844002 74.00
3 2020844003 黄婷婷 国际贸易 2020844003 79.66
4 2020844004 赵小瑜 国际贸易 2020844004 84.66
5 2020844005 辛禧 国际贸易 2020844005 68.00
6 2020844007 王晨 国际贸易 2020844007 65.00
7 2020844008 韩天 国际贸易 2020844008 85.00
8 2020844009 刘玉 国际贸易 2020844009 80.32
9 2020844010 谢亚鹏 市场营销 2020844010 60.00
2、按行合并
df1.append(df4)#有相同列
学号 姓名 专业
0 2020802045 魏天 信息管理与信息系统
1 2020844001 郭夏 国际贸易
2 2020844002 王晓加 NaN
3 2020844003 黄婷婷 国际贸易
4 2020844004 赵小瑜 国际贸易
5 2020844005 辛禧 国际贸易
6 2020844007 王晨 国际贸易
7 2020844008 韩天 国际贸易
8 2020844009 刘玉 国际贸易
9 2020844010 谢亚鹏 市场营销
20 2020844022 关帅 会计学
21 2020844023 刘嘉雯 会计学
22 2020844024 刘浩天 会计学
23 2020844025 刘宇 NaN
24 2020844026 胡童 会计学
25 2020844027 丁灿 会计学
df1.append(df3) #列不相同,实现并集拼接
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py:6211: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.

To retain the current behavior and silence the warning, pass 'sort=True'.

  sort=sort)
专业 姓名 学号 数学 选修
0 信息管理与信息系统 魏天 2.020802e+09 NaN NaN
1 国际贸易 郭夏 2.020844e+09 NaN NaN
2 NaN 王晓加 2.020844e+09 NaN NaN
3 国际贸易 黄婷婷 2.020844e+09 NaN NaN
4 国际贸易 赵小瑜 2.020844e+09 NaN NaN
5 国际贸易 辛禧 2.020844e+09 NaN NaN
6 国际贸易 王晨 2.020844e+09 NaN NaN
7 国际贸易 韩天 2.020844e+09 NaN NaN
8 国际贸易 刘玉 2.020844e+09 NaN NaN
9 市场营销 谢亚鹏 2.020844e+09 NaN NaN
0 NaN NaN NaN 90.8 95.0
1 NaN NaN NaN 83.4 100.0
2 NaN NaN NaN 83.4 NaN
3 NaN NaN NaN 91.4 95.0
4 NaN NaN NaN 82.2 100.0
5 NaN NaN NaN 88.6 80.0
6 NaN NaN NaN 80.0 90.0
7 NaN NaN NaN 91.0 97.0
8 NaN NaN NaN 91.4 100.0
9 NaN NaN NaN 85.2 90.0
pd.concat([df1,df2,df3],axis=0,join="outer")#按行拼接   #inner 
D:\anacoda\anzhuang\lib\site-packages\ipykernel_launcher.py:1: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.

To retain the current behavior and silence the warning, pass 'sort=True'.

  """Entry point for launching an IPython kernel.
Python 专业 姓名 学号 数学 选修
0 NaN 信息管理与信息系统 魏天 2.020802e+09 NaN NaN
1 NaN 国际贸易 郭夏 2.020844e+09 NaN NaN
2 NaN NaN 王晓加 2.020844e+09 NaN NaN
3 NaN 国际贸易 黄婷婷 2.020844e+09 NaN NaN
4 NaN 国际贸易 赵小瑜 2.020844e+09 NaN NaN
5 NaN 国际贸易 辛禧 2.020844e+09 NaN NaN
6 NaN 国际贸易 王晨 2.020844e+09 NaN NaN
7 NaN 国际贸易 韩天 2.020844e+09 NaN NaN
8 NaN 国际贸易 刘玉 2.020844e+09 NaN NaN
9 NaN 市场营销 谢亚鹏 2.020844e+09 NaN NaN
0 93.00 NaN NaN 2.020802e+09 NaN NaN
1 86.00 NaN NaN 2.020844e+09 NaN NaN
2 74.00 NaN NaN 2.020844e+09 NaN NaN
3 79.66 NaN NaN 2.020844e+09 NaN NaN
4 84.66 NaN NaN 2.020844e+09 NaN NaN
5 68.00 NaN NaN 2.020844e+09 NaN NaN
6 65.00 NaN NaN 2.020844e+09 NaN NaN
7 85.00 NaN NaN 2.020844e+09 NaN NaN
8 80.32 NaN NaN 2.020844e+09 NaN NaN
9 60.00 NaN NaN 2.020844e+09 NaN NaN
0 NaN NaN NaN NaN 90.8 95.0
1 NaN NaN NaN NaN 83.4 100.0
2 NaN NaN NaN NaN 83.4 NaN
3 NaN NaN NaN NaN 91.4 95.0
4 NaN NaN NaN NaN 82.2 100.0
5 NaN NaN NaN NaN 88.6 80.0
6 NaN NaN NaN NaN 80.0 90.0
7 NaN NaN NaN NaN 91.0 97.0
8 NaN NaN NaN NaN 91.4 100.0
9 NaN NaN NaN NaN 85.2 90.0

4.3.4数据的增删改

import pandas as pd
pd.set_option("display.unicode.east_asian_width",True)#解决数据输出时列名不对齐的问题
df=pd.read_excel("C:\\Users\\wsy\\Desktop\\cj.xlsx")
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00
20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00
21 2020844023 刘嘉雯 会计学 89.575000 86.0 90.00 100.0 103.00
22 2020844024 刘浩天 会计学 85.100000 83.2 85.00 100.0 98.00
23 2020844025 刘宇 NaN 75.200000 85.6 76.00 100.0 89.00
24 2020844026 胡童 会计学 84.050000 86.0 91.00 100.0 119.00
25 2020844027 丁灿 会计学 88.750000 86.2 66.00 100.0 79.00
26 2020844028 郑武田 会计学 89.550000 87.4 91.00 NaN 104.00
27 2020844029 金耀 会计学 79.450000 87.2 68.00 100.0 81.00
28 2020844030 庞博 会计学 89.700000 92.0 92.00 100.0 105.00
29 2020848001 王春杨 会计学 88.100000 89.8 84.00 100.0 97.00
30 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
31 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
32 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00
33 2020848003 张淳 会计学 91.300000 92.2 81.32 100.0 94.32
34 2020848004 王佳琳 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00
35 2020848005 郑彤 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00
36 2020848006 张鹤同 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50
37 2020848007 苏远 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32
38 2020848008 方雨桃 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00
39 2020848010 闫宇 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00
40 2020848011 张田田 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32
41 2020848013 曹一一 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32
42 2020848014 贾晶晶 NaN 84.450000 93.0 82.66 100.0 95.66
43 2020848015 贾淏文 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00
44 2020848016 杨帆 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00
45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00
46 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
47 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00
48 2020848019 张雨桐 金融学 79.150000 92.4 83.00 100.0 96.00
49 2020848020 孟德坤 金融学 83.450000 87.4 80.66 100.0 93.66
50 2020848021 王少祖 金融学 82.950000 91.6 78.00 90.0 91.00
51 2020848023 黄金雨 金融学 79.950000 89.8 86.00 100.0 99.00
52 2020848024 汤佳怡 金融学 86.600000 83.4 88.32 100.0 101.32
53 2020848027 热孜耶·买买提 金融学 92.700000 93.2 86.32 100.0 99.32
54 2020848028 奴热艾力·雪艾力 金融学 15.000000 75.0 63.32 100.0 76.32
55 2020848029 林可新 金融学 89.300000 87.4 95.00 100.0 108.00
56 2020848031 任旭 金融学 83.425000 85.4 71.66 100.0 84.66
数据增加
#在最后增加列
df["团员否"]=True
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 团员否
0 2020802045 魏天 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True
1 2020844001 郭夏 国际贸易 91.050000 83.4 86.00 100.0 99.00 True
2 2020844002 王晓加 NaN 54.200000 83.4 74.00 NaN 90.00 True
3 2020844003 黄婷婷 国际贸易 87.800000 91.4 79.66 95.0 92.66 True
4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True
5 2020844005 辛禧 国际贸易 65.125000 88.6 68.00 80.0 81.00 True
6 2020844007 王晨 国际贸易 62.400000 80.0 65.00 90.0 78.00 True
7 2020844008 韩天 国际贸易 96.250000 91.0 85.00 97.0 98.00 True
8 2020844009 刘玉 国际贸易 89.050000 91.4 80.32 100.0 93.32 True
9 2020844010 谢亚鹏 市场营销 70.500000 85.2 60.00 90.0 73.00 True
10 2020844011 娄天楠 市场营销 58.800000 84.6 60.00 NaN 73.00 True
11 2020844012 唐喆 市场营销 80.233333 87.4 64.00 100.0 77.00 True
12 2020844013 史昀 市场营销 82.733333 82.2 73.32 100.0 86.32 True
13 2020844014 刘欣语 市场营销 48.718333 83.8 86.00 80.0 99.00 True
14 2020844015 王同 市场营销 74.200000 92.2 92.00 100.0 115.00 True
15 2020844017 武天一 市场营销 73.216667 83.2 79.00 95.0 92.00 True
16 2020844018 张析 市场营销 82.750000 92.0 92.00 100.0 105.00 True
17 2020844019 陈雨涵 市场营销 95.200000 95.0 88.00 100.0 101.00 True
18 2020844020 张家齐 市场营销 95.450000 91.0 96.00 100.0 109.00 True
19 2020844021 李赫桐 会计学 88.276667 86.8 83.00 87.0 96.00 True
20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True
21 2020844023 刘嘉雯 会计学 89.575000 86.0 90.00 100.0 103.00 True
22 2020844024 刘浩天 会计学 85.100000 83.2 85.00 100.0 98.00 True
23 2020844025 刘宇 NaN 75.200000 85.6 76.00 100.0 89.00 True
24 2020844026 胡童 会计学 84.050000 86.0 91.00 100.0 119.00 True
25 2020844027 丁灿 会计学 88.750000 86.2 66.00 100.0 79.00 True
26 2020844028 郑武田 会计学 89.550000 87.4 91.00 NaN 104.00 True
27 2020844029 金耀 会计学 79.450000 87.2 68.00 100.0 81.00 True
28 2020844030 庞博 会计学 89.700000 92.0 92.00 100.0 105.00 True
29 2020848001 王春杨 会计学 88.100000 89.8 84.00 100.0 97.00 True
30 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00 True
31 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00 True
32 2020848002 陈小恬 会计学 83.750000 94.8 89.00 100.0 102.00 True
33 2020848003 张淳 会计学 91.300000 92.2 81.32 100.0 94.32 True
34 2020848004 王佳琳 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 True
35 2020848005 郑彤 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 True
36 2020848006 张鹤同 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 True
37 2020848007 苏远 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 True
38 2020848008 方雨桃 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 True
39 2020848010 闫宇 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 True
40 2020848011 张田田 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 True
41 2020848013 曹一一 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 True
42 2020848014 贾晶晶 NaN 84.450000 93.0 82.66 100.0 95.66 True
43 2020848015 贾淏文 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 True
44 2020848016 杨帆 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 True
45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 True
46 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True
47 2020848018 郭晓舒 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True
48 2020848019 张雨桐 金融学 79.150000 92.4 83.00 100.0 96.00 True
49 2020848020 孟德坤 金融学 83.450000 87.4 80.66 100.0 93.66 True
50 2020848021 王少祖 金融学 82.950000 91.6 78.00 90.0 91.00 True
51 2020848023 黄金雨 金融学 79.950000 89.8 86.00 100.0 99.00 True
52 2020848024 汤佳怡 金融学 86.600000 83.4 88.32 100.0 101.32 True
53 2020848027 热孜耶·买买提 金融学 92.700000 93.2 86.32 100.0 99.32 True
54 2020848028 奴热艾力·雪艾力 金融学 15.000000 75.0 63.32 100.0 76.32 True
55 2020848029 林可新 金融学 89.300000 87.4 95.00 100.0 108.00 True
56 2020848031 任旭 金融学 83.425000 85.4 71.66 100.0 84.66 True
#指定位置增加列
df.insert(2,"年龄",18)
df
学号 姓名 年龄 性别 专业 英语 数学 Python 选修 管理学 团员否
0 2020802045 魏天 18 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True
1 2020844001 郭夏 18 国际贸易 91.050000 83.4 86.00 100.0 99.00 True
2 2020844002 王晓加 18 NaN 54.200000 83.4 74.00 NaN 90.00 True
3 2020844003 黄婷婷 18 国际贸易 87.800000 91.4 79.66 95.0 92.66 True
4 2020844004 赵小瑜 18 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True
5 2020844005 辛禧 18 国际贸易 65.125000 88.6 68.00 80.0 81.00 True
6 2020844007 王晨 18 国际贸易 62.400000 80.0 65.00 90.0 78.00 True
7 2020844008 韩天 18 国际贸易 96.250000 91.0 85.00 97.0 98.00 True
8 2020844009 刘玉 18 国际贸易 89.050000 91.4 80.32 100.0 93.32 True
9 2020844010 谢亚鹏 18 市场营销 70.500000 85.2 60.00 90.0 73.00 True
10 2020844011 娄天楠 18 市场营销 58.800000 84.6 60.00 NaN 73.00 True
11 2020844012 唐喆 18 市场营销 80.233333 87.4 64.00 100.0 77.00 True
12 2020844013 史昀 18 市场营销 82.733333 82.2 73.32 100.0 86.32 True
13 2020844014 刘欣语 18 市场营销 48.718333 83.8 86.00 80.0 99.00 True
14 2020844015 王同 18 市场营销 74.200000 92.2 92.00 100.0 115.00 True
15 2020844017 武天一 18 市场营销 73.216667 83.2 79.00 95.0 92.00 True
16 2020844018 张析 18 市场营销 82.750000 92.0 92.00 100.0 105.00 True
17 2020844019 陈雨涵 18 市场营销 95.200000 95.0 88.00 100.0 101.00 True
18 2020844020 张家齐 18 市场营销 95.450000 91.0 96.00 100.0 109.00 True
19 2020844021 李赫桐 18 会计学 88.276667 86.8 83.00 87.0 96.00 True
20 2020844022 关帅 18 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True
21 2020844023 刘嘉雯 18 会计学 89.575000 86.0 90.00 100.0 103.00 True
22 2020844024 刘浩天 18 会计学 85.100000 83.2 85.00 100.0 98.00 True
23 2020844025 刘宇 18 NaN 75.200000 85.6 76.00 100.0 89.00 True
24 2020844026 胡童 18 会计学 84.050000 86.0 91.00 100.0 119.00 True
25 2020844027 丁灿 18 会计学 88.750000 86.2 66.00 100.0 79.00 True
26 2020844028 郑武田 18 会计学 89.550000 87.4 91.00 NaN 104.00 True
27 2020844029 金耀 18 会计学 79.450000 87.2 68.00 100.0 81.00 True
28 2020844030 庞博 18 会计学 89.700000 92.0 92.00 100.0 105.00 True
29 2020848001 王春杨 18 会计学 88.100000 89.8 84.00 100.0 97.00 True
30 2020848002 陈小恬 18 会计学 83.750000 94.8 89.00 100.0 102.00 True
31 2020848002 陈小恬 18 会计学 83.750000 94.8 89.00 100.0 102.00 True
32 2020848002 陈小恬 18 会计学 83.750000 94.8 89.00 100.0 102.00 True
33 2020848003 张淳 18 会计学 91.300000 92.2 81.32 100.0 94.32 True
34 2020848004 王佳琳 18 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 True
35 2020848005 郑彤 18 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 True
36 2020848006 张鹤同 18 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 True
37 2020848007 苏远 18 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 True
38 2020848008 方雨桃 18 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 True
39 2020848010 闫宇 18 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 True
40 2020848011 张田田 18 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 True
41 2020848013 曹一一 18 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 True
42 2020848014 贾晶晶 18 NaN 84.450000 93.0 82.66 100.0 95.66 True
43 2020848015 贾淏文 18 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 True
44 2020848016 杨帆 18 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 True
45 2020848017 赵迎辰 18 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 True
46 2020848018 郭晓舒 18 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True
47 2020848018 郭晓舒 18 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True
48 2020848019 张雨桐 18 金融学 79.150000 92.4 83.00 100.0 96.00 True
49 2020848020 孟德坤 18 金融学 83.450000 87.4 80.66 100.0 93.66 True
50 2020848021 王少祖 18 金融学 82.950000 91.6 78.00 90.0 91.00 True
51 2020848023 黄金雨 18 金融学 79.950000 89.8 86.00 100.0 99.00 True
52 2020848024 汤佳怡 18 金融学 86.600000 83.4 88.32 100.0 101.32 True
53 2020848027 热孜耶·买买提 18 金融学 92.700000 93.2 86.32 100.0 99.32 True
54 2020848028 奴热艾力·雪艾力 18 金融学 15.000000 75.0 63.32 100.0 76.32 True
55 2020848029 林可新 18 金融学 89.300000 87.4 95.00 100.0 108.00 True
56 2020848031 任旭 18 金融学 83.425000 85.4 71.66 100.0 84.66 True
#增加一行
df.loc[57]=["20200848045","王芳",10,"女","金融学",55,66,77,90,67,True]
df
学号 姓名 年龄 性别 专业 英语 数学 Python 选修 管理学 团员否
0 2020802045 魏天 18 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True
1 2020844001 郭夏 18 国际贸易 91.050000 83.4 86.00 100.0 99.00 True
2 2020844002 王晓加 18 NaN 54.200000 83.4 74.00 NaN 90.00 True
3 2020844003 黄婷婷 18 国际贸易 87.800000 91.4 79.66 95.0 92.66 True
4 2020844004 赵小瑜 18 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True
5 2020844005 辛禧 18 国际贸易 65.125000 88.6 68.00 80.0 81.00 True
6 2020844007 王晨 18 国际贸易 62.400000 80.0 65.00 90.0 78.00 True
7 2020844008 韩天 18 国际贸易 96.250000 91.0 85.00 97.0 98.00 True
8 2020844009 刘玉 18 国际贸易 89.050000 91.4 80.32 100.0 93.32 True
9 2020844010 谢亚鹏 18 市场营销 70.500000 85.2 60.00 90.0 73.00 True
10 2020844011 娄天楠 18 市场营销 58.800000 84.6 60.00 NaN 73.00 True
11 2020844012 唐喆 18 市场营销 80.233333 87.4 64.00 100.0 77.00 True
12 2020844013 史昀 18 市场营销 82.733333 82.2 73.32 100.0 86.32 True
13 2020844014 刘欣语 18 市场营销 48.718333 83.8 86.00 80.0 99.00 True
14 2020844015 王同 18 市场营销 74.200000 92.2 92.00 100.0 115.00 True
15 2020844017 武天一 18 市场营销 73.216667 83.2 79.00 95.0 92.00 True
16 2020844018 张析 18 市场营销 82.750000 92.0 92.00 100.0 105.00 True
17 2020844019 陈雨涵 18 市场营销 95.200000 95.0 88.00 100.0 101.00 True
18 2020844020 张家齐 18 市场营销 95.450000 91.0 96.00 100.0 109.00 True
19 2020844021 李赫桐 18 会计学 88.276667 86.8 83.00 87.0 96.00 True
20 2020844022 关帅 18 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True
21 2020844023 刘嘉雯 18 会计学 89.575000 86.0 90.00 100.0 103.00 True
22 2020844024 刘浩天 18 会计学 85.100000 83.2 85.00 100.0 98.00 True
23 2020844025 刘宇 18 NaN 75.200000 85.6 76.00 100.0 89.00 True
24 2020844026 胡童 18 会计学 84.050000 86.0 91.00 100.0 119.00 True
25 2020844027 丁灿 18 会计学 88.750000 86.2 66.00 100.0 79.00 True
26 2020844028 郑武田 18 会计学 89.550000 87.4 91.00 NaN 104.00 True
27 2020844029 金耀 18 会计学 79.450000 87.2 68.00 100.0 81.00 True
28 2020844030 庞博 18 会计学 89.700000 92.0 92.00 100.0 105.00 True
29 2020848001 王春杨 18 会计学 88.100000 89.8 84.00 100.0 97.00 True
30 2020848002 陈小恬 18 会计学 83.750000 94.8 89.00 100.0 102.00 True
31 2020848002 陈小恬 18 会计学 83.750000 94.8 89.00 100.0 102.00 True
32 2020848002 陈小恬 18 会计学 83.750000 94.8 89.00 100.0 102.00 True
33 2020848003 张淳 18 会计学 91.300000 92.2 81.32 100.0 94.32 True
34 2020848004 王佳琳 18 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 True
35 2020848005 郑彤 18 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 True
36 2020848006 张鹤同 18 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 True
37 2020848007 苏远 18 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 True
38 2020848008 方雨桃 18 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 True
39 2020848010 闫宇 18 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 True
40 2020848011 张田田 18 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 True
41 2020848013 曹一一 18 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 True
42 2020848014 贾晶晶 18 NaN 84.450000 93.0 82.66 100.0 95.66 True
43 2020848015 贾淏文 18 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 True
44 2020848016 杨帆 18 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 True
45 2020848017 赵迎辰 18 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 True
46 2020848018 郭晓舒 18 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True
47 2020848018 郭晓舒 18 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True
48 2020848019 张雨桐 18 金融学 79.150000 92.4 83.00 100.0 96.00 True
49 2020848020 孟德坤 18 金融学 83.450000 87.4 80.66 100.0 93.66 True
50 2020848021 王少祖 18 金融学 82.950000 91.6 78.00 90.0 91.00 True
51 2020848023 黄金雨 18 金融学 79.950000 89.8 86.00 100.0 99.00 True
52 2020848024 汤佳怡 18 金融学 86.600000 83.4 88.32 100.0 101.32 True
53 2020848027 热孜耶·买买提 18 金融学 92.700000 93.2 86.32 100.0 99.32 True
54 2020848028 奴热艾力·雪艾力 18 金融学 15.000000 75.0 63.32 100.0 76.32 True
55 2020848029 林可新 18 金融学 89.300000 87.4 95.00 100.0 108.00 True
56 2020848031 任旭 18 金融学 83.425000 85.4 71.66 100.0 84.66 True
57 20200848045 王芳 10 金融学 55.000000 66.0 77.00 90.0 67.00 True
#增加多行
df1=df[["学号","姓名","专业"]][:10]
df.append(df1.iloc[:10,])
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py:6211: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.

To retain the current behavior and silence the warning, pass 'sort=True'.

  sort=sort)
Python 专业 团员否 姓名 学号 年龄 性别 数学 管理学 英语 选修
0 93.00 信息管理与信息系统 True 魏天 2020802045 18.0 90.8 106.00 67.116667 95.0
1 86.00 国际贸易 True 郭夏 2020844001 18.0 83.4 99.00 91.050000 100.0
2 74.00 NaN True 王晓加 2020844002 18.0 83.4 90.00 54.200000 NaN
3 79.66 国际贸易 True 黄婷婷 2020844003 18.0 91.4 92.66 87.800000 95.0
4 84.66 国际贸易 True 赵小瑜 2020844004 18.0 NaN 82.2 97.66 61.150000 100.0
5 68.00 国际贸易 True 辛禧 2020844005 18.0 88.6 81.00 65.125000 80.0
6 65.00 国际贸易 True 王晨 2020844007 18.0 80.0 78.00 62.400000 90.0
7 85.00 国际贸易 True 韩天 2020844008 18.0 91.0 98.00 96.250000 97.0
8 80.32 国际贸易 True 刘玉 2020844009 18.0 91.4 93.32 89.050000 100.0
9 60.00 市场营销 True 谢亚鹏 2020844010 18.0 85.2 73.00 70.500000 90.0
10 60.00 市场营销 True 娄天楠 2020844011 18.0 84.6 73.00 58.800000 NaN
11 64.00 市场营销 True 唐喆 2020844012 18.0 87.4 77.00 80.233333 100.0
12 73.32 市场营销 True 史昀 2020844013 18.0 82.2 86.32 82.733333 100.0
13 86.00 市场营销 True 刘欣语 2020844014 18.0 83.8 99.00 48.718333 80.0
14 92.00 市场营销 True 王同 2020844015 18.0 92.2 115.00 74.200000 100.0
15 79.00 市场营销 True 武天一 2020844017 18.0 83.2 92.00 73.216667 95.0
16 92.00 市场营销 True 张析 2020844018 18.0 92.0 105.00 82.750000 100.0
17 88.00 市场营销 True 陈雨涵 2020844019 18.0 95.0 101.00 95.200000 100.0
18 96.00 市场营销 True 张家齐 2020844020 18.0 91.0 109.00 95.450000 100.0
19 83.00 会计学 True 李赫桐 2020844021 18.0 86.8 96.00 88.276667 87.0
20 75.00 会计学 True 关帅 2020844022 18.0 NaN 92.6 88.00 90.000000 100.0
21 90.00 会计学 True 刘嘉雯 2020844023 18.0 86.0 103.00 89.575000 100.0
22 85.00 会计学 True 刘浩天 2020844024 18.0 83.2 98.00 85.100000 100.0
23 76.00 NaN True 刘宇 2020844025 18.0 85.6 89.00 75.200000 100.0
24 91.00 会计学 True 胡童 2020844026 18.0 86.0 119.00 84.050000 100.0
25 66.00 会计学 True 丁灿 2020844027 18.0 86.2 79.00 88.750000 100.0
26 91.00 会计学 True 郑武田 2020844028 18.0 87.4 104.00 89.550000 NaN
27 68.00 会计学 True 金耀 2020844029 18.0 87.2 81.00 79.450000 100.0
28 92.00 会计学 True 庞博 2020844030 18.0 92.0 105.00 89.700000 100.0
29 84.00 会计学 True 王春杨 2020848001 18.0 89.8 97.00 88.100000 100.0
... ... ... ... ... ... ... ... ... ... ... ...
38 83.00 信息管理与信息系统 True 方雨桃 2020848008 18.0 86.2 96.00 93.100000 100.0
39 85.00 信息管理与信息系统 True 闫宇 2020848010 18.0 85.4 98.00 86.033333 100.0
40 96.32 信息管理与信息系统 True 张田田 2020848011 18.0 89.6 109.32 91.200000 77.0
41 83.32 信息管理与信息系统 True 曹一一 2020848013 18.0 86.8 96.32 74.426667 100.0
42 82.66 NaN True 贾晶晶 2020848014 18.0 93.0 95.66 84.450000 100.0
43 87.00 信息管理与信息系统 True 贾淏文 2020848015 18.0 80.8 100.00 46.675000 100.0
44 95.00 信息管理与信息系统 True 杨帆 2020848016 18.0 87.6 108.00 98.700000 NaN
45 74.00 信息管理与信息系统 True 赵迎辰 2020848017 18.0 NaN 87.4 87.00 82.250000 100.0
46 73.00 信息管理与信息系统 True 郭晓舒 2020848018 18.0 83.8 86.00 82.500000 90.0
47 73.00 信息管理与信息系统 True 郭晓舒 2020848018 18.0 83.8 86.00 82.500000 90.0
48 83.00 金融学 True 张雨桐 2020848019 18.0 92.4 96.00 79.150000 100.0
49 80.66 金融学 True 孟德坤 2020848020 18.0 87.4 93.66 83.450000 100.0
50 78.00 金融学 True 王少祖 2020848021 18.0 91.6 91.00 82.950000 90.0
51 86.00 金融学 True 黄金雨 2020848023 18.0 89.8 99.00 79.950000 100.0
52 88.32 金融学 True 汤佳怡 2020848024 18.0 83.4 101.32 86.600000 100.0
53 86.32 金融学 True 热孜耶·买买提 2020848027 18.0 93.2 99.32 92.700000 100.0
54 63.32 金融学 True 奴热艾力·雪艾力 2020848028 18.0 75.0 76.32 15.000000 100.0
55 95.00 金融学 True 林可新 2020848029 18.0 87.4 108.00 89.300000 100.0
56 71.66 金融学 True 任旭 2020848031 18.0 85.4 84.66 83.425000 100.0
57 77.00 金融学 True 王芳 20200848045 10.0 66.0 67.00 55.000000 90.0
0 NaN 信息管理与信息系统 NaN 魏天 2020802045 NaN NaN NaN NaN NaN NaN
1 NaN 国际贸易 NaN 郭夏 2020844001 NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN 王晓加 2020844002 NaN NaN NaN NaN NaN NaN
3 NaN 国际贸易 NaN 黄婷婷 2020844003 NaN NaN NaN NaN NaN NaN
4 NaN 国际贸易 NaN 赵小瑜 2020844004 NaN NaN NaN NaN NaN NaN
5 NaN 国际贸易 NaN 辛禧 2020844005 NaN NaN NaN NaN NaN NaN
6 NaN 国际贸易 NaN 王晨 2020844007 NaN NaN NaN NaN NaN NaN
7 NaN 国际贸易 NaN 韩天 2020844008 NaN NaN NaN NaN NaN NaN
8 NaN 国际贸易 NaN 刘玉 2020844009 NaN NaN NaN NaN NaN NaN
9 NaN 市场营销 NaN 谢亚鹏 2020844010 NaN NaN NaN NaN NaN NaN

68 rows × 11 columns文章来源地址https://www.toymoban.com/news/detail-422347.html

数据修改
#修改列
df["年龄"]=25
df
学号 姓名 年龄 性别 专业 英语 数学 Python 选修 管理学 团员否
0 2020802045 魏天 25 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True
1 2020844001 郭夏 25 国际贸易 91.050000 83.4 86.00 100.0 99.00 True
2 2020844002 王晓加 25 NaN 54.200000 83.4 74.00 NaN 90.00 True
3 2020844003 黄婷婷 25 国际贸易 87.800000 91.4 79.66 95.0 92.66 True
4 2020844004 赵小瑜 25 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True
5 2020844005 辛禧 25 国际贸易 65.125000 88.6 68.00 80.0 81.00 True
6 2020844007 王晨 25 国际贸易 62.400000 80.0 65.00 90.0 78.00 True
7 2020844008 韩天 25 国际贸易 96.250000 91.0 85.00 97.0 98.00 True
8 2020844009 刘玉 25 国际贸易 89.050000 91.4 80.32 100.0 93.32 True
9 2020844010 谢亚鹏 25 市场营销 70.500000 85.2 60.00 90.0 73.00 True
10 2020844011 娄天楠 25 市场营销 58.800000 84.6 60.00 NaN 73.00 True
11 2020844012 唐喆 25 市场营销 80.233333 87.4 64.00 100.0 77.00 True
12 2020844013 史昀 25 市场营销 82.733333 82.2 73.32 100.0 86.32 True
13 2020844014 刘欣语 25 市场营销 48.718333 83.8 86.00 80.0 99.00 True
14 2020844015 王同 25 市场营销 74.200000 92.2 92.00 100.0 115.00 True
15 2020844017 武天一 25 市场营销 73.216667 83.2 79.00 95.0 92.00 True
16 2020844018 张析 25 市场营销 82.750000 92.0 92.00 100.0 105.00 True
17 2020844019 陈雨涵 25 市场营销 95.200000 95.0 88.00 100.0 101.00 True
18 2020844020 张家齐 25 市场营销 95.450000 91.0 96.00 100.0 109.00 True
19 2020844021 李赫桐 25 会计学 88.276667 86.8 83.00 87.0 96.00 True
20 2020844022 关帅 25 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True
21 2020844023 刘嘉雯 25 会计学 89.575000 86.0 90.00 100.0 103.00 True
22 2020844024 刘浩天 25 会计学 85.100000 83.2 85.00 100.0 98.00 True
23 2020844025 刘宇 25

到了这里,关于python-数据分析-pandas的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python数据分析-Pandas

    个人笔迹,建议不看 Series类型 DataFrame类型 是一个二维结构,类似于一张excel表 DateFrame只要求每列的数据类型相同就可以了 查看数据 读取数据及数据操作 行操作 条件选择 缺失值及异常值处理 判断缺失值: 填充缺失值: 删除缺失值 age count 2.000000 mean 1.500000 std 0.707107 min 1

    2024年02月10日
    浏览(61)
  • python-数据分析-pandas

    第一种:通过标量创建Series 第二种:通过列表创建Series 第三种:通过字典创建Series 第四种:通过ndarray创建Series values和index 索引和切片 第一种:通过一维列表构成的字典创建DataFrame 姓名 数学 语文 计算机 0 张三 87 54 34 1 李四 45 76 56 2 王五 34 55 77 3 赵六 98 90 87 姓名 数学 语文

    2023年04月23日
    浏览(62)
  • 【Python练习】数据分析库Pandas

    1. 了解Serie

    2024年02月09日
    浏览(59)
  • 实战演练Python数据分析[pandas]

    本篇文章出自于《利用Python进行数据分析》示例数据 请结合提供的示例数据,分析代码的功能,并进行数据分析与可视化拓展。本篇文章通过四个例子,通过MoviesLens数据集、美国1880-2010年的婴儿名字、美国农业部视频数据库、2012年联邦选举委员会数据库来进行着重讲解。

    2024年02月15日
    浏览(49)
  • 【头歌】——数据分析与实践-python-Pandas 初体验-Pandas数据取值与选择-Pandas进阶

    第1关 了解数据处理对象–Series 第2关 了解数据处理对象-DataFrame 第3关 读取 CSV 格式数据 第4关 数据的基本操作——排序 第5关 数据的基本操作——删除 第6关 数据的基本操作——算术运算 第7关 数据的基本操作——去重 第8关 数据重塑 第1关 Series数据选择 第2关 DataFrame数据

    2024年01月22日
    浏览(151)
  • python数据分析之Pandas库(一)

    Pandas有两种常用的数据结构: Series (一维数据)与 DataFrame(二维数据)。 Series 是一种类似于 一维数组 的对象,能保存不同数据类型。 DataFrame 是一个 二维的表格型 的数据结构。 1、初始化 使用一位列表初始化Series 2、索引[数据的行标签]、切片 1、初始化 2、查看数据 1、

    2024年02月09日
    浏览(49)
  • 【Python】数据分析+数据挖掘——探索Pandas中的数据筛选

    当涉及数据处理和分析时,Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法,使得数据的选择、筛选和处理变得简单而高效。在本博客中,我们将重点介绍Pandas中数据筛选的关键知识点,包括条件索引、逻辑操作符、 query() 方法以及

    2024年02月15日
    浏览(58)
  • Python数据分析之Pandas核心使用进阶

    在Pandas中,有两种常见的方法可以进行DataFrame的行级遍历:使用 iterrows() 和使用 iteritems() 。 使用 iterrows() 方法: iterrows() 方法返回一个迭代器,可以按行遍历DataFrame。每次迭代返回一个包含行索引和该行数据的元组。 输出结果为: 在上面的例子中,我们使用 iterrows() 方法遍

    2024年02月11日
    浏览(75)
  • 【Python】数据分析+数据挖掘——探索Pandas中的索引与数据组织

    在数据科学和数据分析领域,Pandas是一个备受喜爱的Python库。它提供了丰富的数据结构和灵活的工具,帮助我们高效地处理和分析数据。其中,索引在Pandas中扮演着关键角色,它是一种强大的数据组织和访问机制,使我们能够更好地理解和操作数据。 本博客将探讨Pandas中与索

    2024年02月15日
    浏览(58)
  • Python 数据处理与分析之 Pandas 库

    Pandas(Python Data Analysis Library)是一个流行的 Python 第三方库,是数据处理和数据分析中不可或缺的工具之一,用于数据处理和数据分析。 它提供了高效的数据分析方法和灵活且高效的数据结构。相比于其他的数据处理库,pandas更适用于处理具有关系型数据或者带标签数据的情

    2024年02月05日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包