EDA-数据探索-pandas自带可视化-iris

这篇具有很好参考价值的文章主要介绍了EDA-数据探索-pandas自带可视化-iris。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

# 加载yellowbrick数据集
import os
import pandas as pd
FIXTURES  = os.path.join(os.getcwd(), "data")
df = pd.read_csv(os.path.join(FIXTURES,"iris.csv"))
df.head()

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

df.head().to_dict()

{'sepal_length': {0: 5.1, 1: 4.9, 2: 4.7, 3: 4.6, 4: 5.0},
 'sepal_width': {0: 3.5, 1: 3.0, 2: 3.2, 3: 3.1, 4: 3.6},
 'petal_length': {0: 1.4, 1: 1.4, 2: 1.3, 3: 1.5, 4: 1.4},
 'petal_width': {0: 0.2, 1: 0.2, 2: 0.2, 3: 0.2, 4: 0.2},
 'species': {0: 'setosa', 1: 'setosa', 2: 'setosa', 3: 'setosa', 4: 'setosa'}}

可视化相关的库

import warnings
warnings.filterwarnings('ignore')

import numpy as np
from scipy.stats import norm

import seaborn as sns
import matplotlib.pyplot as plt
get_ipython().run_line_magic('matplotlib', 'inline')

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

plt.style.available

['Solarize_Light2',
 '_classic_test_patch',
 '_mpl-gallery',
 '_mpl-gallery-nogrid',
 'bmh',
 'classic',
 'dark_background',
 'fast',
 'fivethirtyeight',
 'ggplot',
 'grayscale',
 'seaborn-v0_8',
 'seaborn-v0_8-bright',
 'seaborn-v0_8-colorblind',
 'seaborn-v0_8-dark',
 'seaborn-v0_8-dark-palette',
 'seaborn-v0_8-darkgrid',
 'seaborn-v0_8-deep',
 'seaborn-v0_8-muted',
 'seaborn-v0_8-notebook',
 'seaborn-v0_8-paper',
 'seaborn-v0_8-pastel',
 'seaborn-v0_8-poster',
 'seaborn-v0_8-talk',
 'seaborn-v0_8-ticks',
 'seaborn-v0_8-white',
 'seaborn-v0_8-whitegrid',
 'tableau-colorblind10']

plt.style.use( 'seaborn-v0_8')

字符特征

条形图（柱状图）展示每个字符特征的频数分布。

df[‘字符特征’].value_counts().plot(kind=‘bar’)

df['species'].value_counts().plot(kind='bar')  # 均衡的一笔

<Axes: xlabel='species'>

数字特征

直方图展示数字特征的分布情况。

df[‘数字特征’].plot(kind=‘hist’)

df['sepal_length'].plot(kind='hist')

<Axes: ylabel='Frequency'>

from scipy.stats import gaussian_kde

# 绘制直方图
ax = df['sepal_length'].plot(kind='hist', bins=10, density=True)

# 计算核密度估计
density = gaussian_kde(df['sepal_length'])

x, y = np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100), density(np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100))

# 绘制拟合曲线
ax.plot(x, y) # ,color='red'

# 显示图形
plt.show()

分类结果

饼图展示分类结果的占比情况。

df[‘分类结果’].value_counts().plot(kind=‘pie’)

ax = df['species'].value_counts().plot(kind='pie') # 均衡的一笔
# 自定义ylabel
ax.set_ylabel(' ')
# 显示图形
plt.show()

字符特征与数字特征关系

箱线图展示不同字符特征对应的数字特征的分布情况。

df.boxplot(column=‘数字特征’, by=‘字符特征’)

df.boxplot(column='sepal_length', by='species') # ,color='orange'
# 自定义标题
plt.title(' ')
# 显示图形
plt.show()

字符特征与数字特征关系

折线图展示不同字符特征对应的数字特征的均值变化趋势。

df.groupby(‘字符特征’)[‘数字特征’].mean().plot(kind=‘line’)

df.groupby('species')['sepal_length'].mean().plot(kind='line')

<Axes: xlabel='species'>

数字特征间的关系

散点图展示两个数字特征之间的相关性。

df.plot(kind=‘scatter’, x=‘数字特征1’, y=‘数字特征2’)

df.plot(kind='scatter', x='sepal_length', y='sepal_width')

<Axes: xlabel='sepal_length', ylabel='sepal_width'>

数字特征的分布情况

箱线图展示数字特征的分布情况和异常值。

df.boxplot(column=‘数字特征’)

df.boxplot(column='sepal_length') # ,color='#4C72B0'

<Axes: >

数字特征的分布情况

核密度估计图展示数字特征的概率密度分布。

df[‘数字特征’].plot(kind=‘density’)

df['sepal_length'].plot(kind='density')

<Axes: ylabel='Density'>

字符特征和分类结果的交叉统计

交叉表展示字符特征和分类结果之间的频数统计。

pd.crosstab(df[‘字符特征’], df[‘分类结果’]).plot(kind=‘bar’)文章来源地址https://www.toymoban.com/news/detail-803406.html

pd.crosstab(df['species'], df['species']).plot(kind='bar')

<Axes: xlabel='species'>

到了这里，关于EDA-数据探索-pandas自带可视化-iris的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

EDA-数据探索-pandas自带可视化-iris

可视化相关的库

字符特征

数字特征

分类结果

字符特征与数字特征关系

字符特征与数字特征关系

数字特征间的关系

数字特征的分布情况

数字特征的分布情况

字符特征和分类结果的交叉统计

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2