数据分析缺失值处理(Missing Values)——删除法、填充法、插值法

这篇具有很好参考价值的文章主要介绍了数据分析缺失值处理(Missing Values)——删除法、填充法、插值法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

缺失值指数据集中某些变量的值有缺少的情况,缺失值也被称为NA(not available)值。在pandas里使用浮点值NaN(Not a Number)表示浮点数和非浮点数中的缺失值,用NaT表示时间序列中的缺失值,此外python内置的None值也会被当作是缺失值。需要注意的是,有些缺失值也会以其他形式出现,比如说用NULL,0或无穷大(inf)表示。

pip install d2l -i https://pypi.tuna.tsinghua.edu.cn/simple
import os
import pandas as pd

# 添加 测试数据
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,NA,127500\n')
    f.write('2,D,A,106000\n')
    f.write('4,NA,NA,178100\n')
    f.write('NA,NA,B,14000\n')

# 读取 csv 数据
data = pd.read_csv(data_file)
print("\nCSV data => \n", data)
print("-" * 60)

# 检测缺失值
res_null = pd.isnull(data)
print("\nres_null => \n", res_null)
print("\nres_null.sum() => \n", res_null.sum())

# 通过位置索引iloc,将 data 分成 inputs、 outputs
inputs, outputs = data.iloc[:, 0:3], data.iloc[:, 3]

print("-" * 60)

删除法

简单,但是容易造成数据的大量丢失
1、删除全为空值的行或列

data=data.dropna(axis=0,how='all')   # 只删除【全行】为缺失值的行数据
data=data.dropna(axis=1,how='all')   # 只删除【全列】为缺失值的列数据

2、删除含有空值的行或列

data=data.dropna(axis=0,how='any')   # 只要【行】中有缺失值的,删除该【行】数据
data=data.dropna(axis=1,how='any')   # 只要【列】中有缺失值的,删除该列数据

axis : {0或'index',1或'columns'},默认0

确定是否删除包含缺失值的行或列。
0或’index’:删除包含缺失值的行。
1或“列”:删除包含缺失值的列。
从0.23.0版开始不推荐使用:将元组或列表传递到多个轴上。只允许一个轴。

how : {'any','all'},默认为'any'

当我们有至少一个NA或全部NA时,确定是否从DataFrame中删除行或列。
'any':如果存在任何NA值,则删除该行或列。
'all':如果所有值均为NA,则删除该行或列。

thresh : int,可选

需要许多非NA值。

subset :类数组,可选

要考虑的其他轴上的标签,例如,如果要删除行,这些标签将是要包括的列的列表。

inplace : bool,默认为False

如果为True,则对数据源进行生效

示例

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=list('abcde'), columns=['one', 'two', 'three'])  # 随机产生5行3列的数据
print(df)

df.iloc[1, :] = np.nan  # 将指定数据定义为缺失
df.iloc[1:-1, 2] = np.nan
print("-" * 60)
print(df)

print("-" * 60)
print(df.dropna(axis=0))

import os
import pandas as pd

"""
删除法:
简单,但是容易造成数据的大量丢失
how = "any"  只要有缺失值就删除
how = "all"  只删除全行为缺失值的行
axis = 1 丢弃有缺失值的列(一般不会这么做,这样会删掉一个特征), 默认值为:0
"""

# 添加 测试数据
data_file = os.path.join('.', 'data', 'house_tiny.csv')

"""
输入:
    NumRooms Alley  Test     Price
0       NaN  Pave   NaN  127500.0
1       2.0     D   NaN  106000.0
2       4.0   NaN   NaN  178100.0
3       NaN   NaN   NaN       NaN
输出:
    NumRooms Alley  Test     Price
0       NaN  Pave   NaN  127500.0
1       2.0     D   NaN  106000.0
2       4.0   NaN   NaN  178100.0
"""
print("-" * 60)
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,NA,127500\n')
    f.write('2,D,NA,106000\n')
    f.write('4,NA,NA,178100\n')
    f.write('NA,NA,NA,NA\n')
data = pd.read_csv(data_file)
print("\nCSV data => \n", data)
data.dropna(how="all", axis=0, inplace=True)
print("删除之后的结果,只删除全行为缺失值的行数据: \n", data)

"""
输入:
    NumRooms Alley  Test     Price
0       NaN  Pave   NaN  127500.0
1       2.0     D   NaN  106000.0
2       4.0   NaN   NaN  178100.0
3       NaN   NaN   NaN       NaN
输出:
    NumRooms Alley     Price
0       NaN  Pave  127500.0
1       2.0     D  106000.0
2       4.0   NaN  178100.0
3       NaN   NaN       NaN
"""
print("-" * 60)
data.dropna(how="all", axis=1, inplace=True)
print("删除之后的结果,只删除全列为缺失值的列数据: \n", data)

"""
输入:
    NumRooms Alley Test     Price
0       NaN  Pave    A  127500.0
1       2.0     D    E  106000.0
2       4.0   NaN  NaN  178100.0
3       NaN   NaN    B       NaN
输出:
    NumRooms Alley Test     Price
1       2.0     D    E  106000.0
"""
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,A,127500\n')
    f.write('2,D,E,106000\n')
    f.write('4,NA,NA,178100\n')
    f.write('NA,NA,B,NA\n')
data = pd.read_csv(data_file)
print("\nCSV data => \n", data)
print("-" * 60)
data.dropna(how="any", axis=0, inplace=True)
print("删除之后的结果,只要【行】中有缺失值的,删除该【行】数据: \n", data)

"""
输入:
    NumRooms Alley Test   Price
0       NaN  Pave    A  127500
1       2.0     D    E  106000
2       4.0   NaN    C  178100
3       NaN   NaN    B   14000
输出:
   Test   Price
0    A  127500
1    E  106000
2    C  178100
3    B   14000
"""
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,A,127500\n')
    f.write('2,D,E,106000\n')
    f.write('4,NA,C,178100\n')
    f.write('NA,NA,B,14000\n')
data = pd.read_csv(data_file)
print("\nCSV data => \n", data)
print("-" * 60)
data.dropna(how="any", axis=1, inplace=True)
print("删除之后的结果,只要【列】中有缺失值的,删除该列数据: \n", data)


"""
输入:
    NumRooms Alley Test   Price
0       NaN  Pave    A  127500
1       2.0     D    E  106000
2       4.0     C  NaN  178100
3       NaN   NaN    B   14000
输出:
    NumRooms Alley Test   Price
0       NaN  Pave    A  127500
1       2.0     D    E  106000

"""
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,A,127500\n')
    f.write('2,D,E,106000\n')
    f.write('4,C,NA,178100\n')
    f.write('NA,NA,B,14000\n')
data = pd.read_csv(data_file)
print("\nCSV data => \n", data)
print("-" * 60)
dt = data.dropna(subset=["Alley", "Test"])
print("删除之后的结果,删除 'Alley', 'Test': 有空值的行。\n", dt)

填充法

只要不影响数据分布或者对结果影响不是很大的情况
数值型 ——可以使用均值、众数、中位数来填充,也可以使用这一列的上下邻居数据来填充
类别数据(非数值型) ——可以使用众数来填充,也可以使用这一列的上下邻居数据来填充
使用众数来填充非数值型数据
fillna():使用指定的方法填充NA/NaN值。
返回值:DataFrame 缺少值的对象已填充。不改变原序列值。
参数解释

  • value :scalar(标量), dict, Series, 或DataFrame
    用于填充孔的值(例如0),或者是dict / Series / DataFrame的值,
    该值指定用于每个索引(对于Series)或列(对于DataFrame)使用哪个值。
    不在dict / Series / DataFrame中的值将不被填充。该值不能是列表(list)。
  • method : {‘backfill’,‘bfill’,‘pad’,‘ffill’,None},默认为None
    填充重新索引的系列填充板/填充中的holes的方法:
    将最后一个有效观察向前传播到下一个有效回填/填充:
    使用下一个有效观察来填充间隙。
  • axis : {0或’index’,1或’columns’}
    填充缺失值所沿的轴。
    inplace : bool,默认为False
    如果为True,则就地填充。
    注意:这将修改此对象上的任何其他视图
    (例如,DataFrame中列的无副本切片)。
  • limit : int,默认值None
    如果指定了method,
    则这是要向前/向后填充的连续NaN值的最大数量。
    换句话说,如果存在连续的NaN数量大于此数量的缺口,
    它将仅被部分填充。如果未指定method,
    则这是将填写NaN的整个轴上的最大条目数
    如果不为None,则必须大于0。
  • downcast : dict,默认为None
    item-> dtype的字典,如果可能的话,将向下转换,
    或者是字符串“infer”,
    它将尝试向下转换为适当的相等类型
    (例如,如果可能,则从float64到int64)。
import os
import pandas as pd

# 添加 测试数据
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,NA,127500\n')
    f.write('2,D,NA,106000\n')
    f.write('4,NA,NA,178100\n')
    f.write('NA,NA,NA,NA\n')
data = pd.read_csv(data_file)
print("\nCSV data => \n", data)
print("-" * 60)
# 处理缺失值,替换法 - 用当前列的平均值,填充 NaN
# 通过位置索引iloc,将 data 分成 inputs、 outputs
inputs, outputs = data.iloc[:, 0:4], data.iloc[:, 3]
a = inputs.fillna(inputs.mean())
print("\ninputs.fillna => \n", a)
b = inputs.fillna(inputs.mean(), limit=1)
print("\ninputs.fillna => \n", b)

插值法

最常用的插值函数就是interp1d,按照字面意思理解就是插值一个一维函数。其必不可少的输入参数,就是将要被插值的函数的自变量和因变量,输出为被插值后的函数
而所谓插值,要求只能在特定的两个值之间插入,而对于超出定义域范围的值,是无法插入的
在无声明的情况下,插值方法默认是线性插值linear,如有其他需求,可变更kind参数来实现,可选插值方法如下:

  • 样条插值:其0、1、2、3阶插值参数分别为zero、slinear、quadratic、cubic
  • 返回单点:next和previous用于返回上一个或下一个值
  • 最邻近插值:nearest采取向下取整;nearest-up采用向上取整。
import numpy as np
import matplotlib.pyplot as plt
import scipy.interpolate as si

x = np.arange(0, 10, 0.1)
y = np.sin(x)
plt.plot(x, y, 'o')
plt.show()


xnew = np.arange(0, 99)/10
f = si.interp1d(x, y)
ynew = f(xnew)  #调用经由interp1d返回的函数
plt.plot(x, y, 'o', xnew, ynew, '-')
plt.show()

数据分析缺失值处理(Missing Values)——删除法、填充法、插值法
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法

import numpy as np
import matplotlib.pyplot as plt
import scipy.interpolate as si

x = np.arange(10)
y = np.sin(x)
plt.scatter(x[1:-1],y[1:-1])

xNew = np.arange(1,9,0.1)

ks = ['zero', 'slinear', 'quadratic', 'cubic']
cs = ['r', 'g', 'b', 'gray']

for i in range(4):
    f = si.interp1d(x,y,kind=ks[i])
    plt.plot(xNew, f(xNew), c=cs[i])

plt.show()

下图中,红、绿、蓝、灰分别代表0到3次插值,可见,尽管只有10个点,但分段的二次函数已经描绘出了三角函数的形状,其插值效果还是不错的。
数据分析缺失值处理(Missing Values)——删除法、填充法、插值法文章来源地址https://www.toymoban.com/news/detail-447900.html

import numpy as np
from scipy.interpolate import interp1d
from scipy.interpolate import lagrange
# 插值法
# 线性插值 ——你和线性关系进行插值
# 多项式插值 ——拟合多项式进行插值
# 拉格朗日多项式插值、牛顿多项式插值

# 样条插值 ——拟合曲线进行插值
# 对于线型关系,线型插值,表现良好,多项式插值,与样条插值也表现良好
# 对于非线型关系,线型插值,表现不好,多项式插值,与样条插值表现良好
# 推荐如果想要使用插值方式,使用拉格朗日插值和样条插值
x = np.array([1, 2, 3, 4, 5, 8, 9])
y = np.array([3, 5, 7, 9, 11, 17, 19])
z = np.array([2, 8, 18, 32, 50 ,128, 162])

# 线型插值
linear_1 = interp1d(x=x, y=y, kind="linear")
linear_2 = interp1d(x=x, y=z, kind="linear")
linear_3 = interp1d(x=x, y=y, kind="cubic")


print("线性插值: \n", linear_1([6, 7])) # [13. 15.]  注意不是1是第一个索引
# print("线性插值: \n", linear_1([5, 6])) # [11. 13.]
print("线性插值: \n", linear_2([6, 7])) # [76. 102]
print("线性插值: \n", linear_3([6, 7])) # [76. 102]

# 拉格朗日插值
la_1 = lagrange(x=x, w=y)
la_2 = lagrange(x=x, w=y)

print("拉格朗日: \n",  la_1)  # [13, 15]
print("拉格朗日: \n",  la_2)  # [72, 98]

转换为张量格式

import os
import pandas as pd
import numpy as np
import paddle


data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Test,Price\n')
    f.write('NA,Pave,NA,127500\n')
    f.write('2,D,NA,106000\n')
    f.write('4,NA,NA,178100\n')
    f.write('NA,NA,NA,NA\n')
data = pd.read_csv(data_file)

# 对于非NaN类型的数据——先将非NaN类型的数据转化为np.nan
data.replace("*", np.nan, inplace=True)
print("data: \n", data)
print(type(np.nan))


inputs, outputs = data.iloc[:, 0:4], data.iloc[:, 3]
print("-" * 60)
# 把离散的类别信息转化为 one-hot 编码形式
inputs = pd.get_dummies(inputs, dummy_na=True)
print("\none-hot => \n", inputs)

# 转换为张量格式
x, y = paddle.to_tensor(inputs.values), paddle.to_tensor(outputs.values)
print("\n to_tensor => \n", x, y)

到了这里,关于数据分析缺失值处理(Missing Values)——删除法、填充法、插值法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习案例:运营商客户流失的数据分析 #数据去重#数据分组整合#缺失值处理#相关性分析#样本平衡#决策树、随机森林、逻辑回归

    前提: 随着业务快速发展、电信市场的竞争愈演愈烈。如何最大程度地挽留在网用户、吸取新客户,是电信企业最 关注的问题之一。 客户流失 会给企业带来一系列损失,故在发展用户每月增加的同时,如何挽留和争取更多 的用户,也是一项非常重要的工作。 能否利用大数

    2024年02月08日
    浏览(52)
  • 缺失数据(missing data)的处理(理论)

    expectation maximization 期望最大化 maximum likelihood 最大似然 case substitution prior knowledge 先验知识 图片来源:https://github.com/dataprofessor/infographic 对原始数据进行缺失值检查。 若无缺失数据,则继续进行其他数据预处理步骤,进而进行机器学习模型的建立。 若有缺失数据,按照数据

    2024年02月06日
    浏览(39)
  • 数据分析过程中,发现数值缺失,怎么办?

    按照数据缺失机制,数据分析过程中,我们可以将其分为以下几类: (1)完全随机缺失(MCAR):所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关。 (2)随机缺失(MAR):假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数

    2024年02月05日
    浏览(53)
  • 【手写数据库toadb】SQL解析器的实现架构,create table/insert 多values语句的解析树生成流程和输出结构分析

    ​ 专栏内容 : 手写数据库toadb 本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。 本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学

    2024年02月05日
    浏览(68)
  • KubeSphere Namespace 数据删除事故分析与解决全记录

    作者:宇轩辞白,运维研发工程师,目前专注于云原生、Kubernetes、容器、Linux、运维自动化等领域。 2023 年 7 月 23 日在项目上线前夕,K8s 生产环境出现故障,经过紧急修复之后,K8s 环境恢复正常;另外我们环境引入了 KubeSphere 云原生平台技术,为了方便研发人员对于 K8s 权

    2024年02月09日
    浏览(55)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(58)
  • Java进阶(3)——手动实现ArrayList & 源码的初步理解分析 & 数组插入数据和删除数据的问题

    1.ArrayList的结构分析,可迭代接口,是List的实现; 2.数组增加元素和删除元素的分析,何时扩容,如何扩容; 3.插入数据的复杂度O(N); 4.数组特点:查找和修改容易O(1);增加和删除复杂O(N); 增加元素 如果放不下怎么办?如何扩容? 扩容后如何操作? 扩容:每次为原来的

    2024年02月12日
    浏览(42)
  • MATLAB Fundamentals>>>Fill Missing Values

    MATLAB FundamentalsPreprocessing DataInterpolating Missing Data (1/4) Fill Missing Values This code sets up the activity. 任务1: Create a vector  y  that uses the nearest value to interpolate the  NaN  values of  x . Display the results by making sure  Cleaned data  and  Fill missing entries  are checked. 解答: 任务2: Look at the gene

    2024年01月21日
    浏览(40)
  • 数据分析 — Pandas 数据处理

    Pandas (Python Data Analysis Library)是一个基于 NumPy 的 数据分析工具 ,专为解决数据分析任务而创建。它汇集了大量库和一些标准的数据模型,可以更高效地操作大型数据集。 数据结构: Pandas 提供了两种主要的数据结构,即 Series 和 DataFrame ,用于处理 一维和二维 数据。 标签

    2024年02月22日
    浏览(57)
  • SPSSPRO数据分析之——CSI指纹数据分析(预处理、降维等)

    目录 一、前言 二、数据准备 三、进行预处理  四、进行降维任务 五、正态性检测  六、描述性统计 七、频数分析 八、代码功能 SPSSPRO是一款全新的在线数据分析平台,可以用于科研数据的分析、数学建模等,对于那些不会编程或者刚进入科研的新人来说,这款工具再合适

    2024年02月13日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包