【机器学习】特征降维 - 方差选择法VarianceThreshold-Toy模板网

这篇具有很好参考价值的文章主要介绍了【机器学习】特征降维 - 方差选择法VarianceThreshold。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

「作者主页」：士别三日wyx
「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者
「推荐专栏」：对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》

提取的特征当中，有一些相关（相似）的「冗余特征」，这种特征是没有必要统计的，我们需要「减少」相关的特征，留下不相关的特征。也就是「特征降维」。

特征降维的方式有很多，这里使用其中的一种：方差选择法（低方差过滤）

一、方差科普

先简单科普一下，方差=平方的均值减去均值的平方，公式是：

【机器学习】特征降维 - 方差选择法VarianceThreshold,机器学习,人工智能

比如，1、2、3、4、5这五个数，平均数是3；

而「方差」是各个数据分别与其和的平均数之差的平方的和的平均数：[(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2]/5=2，也就是2。

方差小，就意味某个特征大多样本的值比较相近；方差大，就意味着某个特征大多样本的值都有差别。

方差选择法也叫「低方差过滤」，顾名思义，就是设定一个方差的值，所有低于这个方差的特征都会被删掉。

二、方差选择API

sklearn.feature_selection 是特征选择的API

sklearn.feature_selection.VarianceThreshold( threshold=0 )

VarianceThreshold.fit_transform( data )：接收字典类型的原始数据，返回方差过滤后的数字特征
VarianceThreshold.inverse_transform( data )：将过滤后的数字特征，转回原始数据
VarianceThreshold.get_feature_names_out()：返回特征名字
VarianceThreshold.variances_：返回每个特征对应的方差值

三、获取数据集

这里我们使用鸢尾花数据集来做示例

from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()

# 打印数据特征
print(iris.data)
# 打印特征数总结
print(iris.data.shape)

输出：

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]
(150, 4)

从输出结果可以看到，数据集现在有150条数据，每条数据有4个特征。

四、进行方差过滤

接下来我们进行方差过滤，指定方差为0.2

from sklearn import feature_selection
from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()
# 初始化转换器（指定方差为0.2）
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用转换器对数据进行低方差过滤
result = vt.fit_transform(iris.data)

# 打印数据特征
print(result)
print(result.shape)

输出：

[[5.1 1.4 0.2]
 [4.9 1.4 0.2]
 ......
 [5.9 5.1 1.8]]
(150, 3)

从输出结果可以看到，转换后的数据集有150条数据，每条数据有3个特征，方差小于0.2的那个特征被过滤掉了。

接下来，我们把方差改成1

from sklearn import feature_selection
from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()
# 初始化转换器（指定方差为1）
vt = feature_selection.VarianceThreshold(threshold=1)

# 使用转换器对数据进行低方差过滤
result = vt.fit_transform(iris.data)

# 打印数据特征
print(result)
print(result.shape)

输出：

[[1.4]
 [1.4]
 ......
 [5.1]]
(150, 1)

从输出结果可以看到，数据集的的特征变成了1个，方差小于1的那三个特征被过滤掉了。

五、获取特征的方差值

接下来，我们获取每一个特征的方差值，来验证过滤的准确性。

from sklearn import feature_selection
from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()
# 初始化转换器（指定方差为1）
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用转换器对数据进行低方差过滤
result = vt.fit_transform(iris.data)

# 获取特征的方差值
print(vt.variances_)

输出：

[0.68112222 0.18871289 3.09550267 0.57713289]

从输出结果可以看到，4个特征的方差值，有3个大于0.2，有1个大于1，上述试验的过滤结果符合预期。文章来源地址https://www.toymoban.com/news/detail-540424.html

到了这里，关于【机器学习】特征降维 - 方差选择法VarianceThreshold的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【机器学习】特征降维 - 方差选择法VarianceThreshold

一、方差科普

二、方差选择API

三、获取数据集

四、进行方差过滤

五、获取特征的方差值

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2