sklearn机器学习库(一)sklearn中的决策树

这篇具有很好参考价值的文章主要介绍了sklearn机器学习库(一)sklearn中的决策树。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

sklearn机器学习库(一)sklearn中的决策树

sklearn中决策树的类都在”tree“这个模块之下。

tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用
tree.export_text 以文字形式输出树
tree.ExtraTreeClassifier 高随机版本的分类树
tree.ExtraTreeRegressor 高随机版本的回归树

1、DecisionTreeClassifier及其重要参数

1.1 重要参数

1.1.1 参数criterion

  • 决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。

  • 通常来说,不纯度越低,决策树对训练集的拟合越好。

  • 不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的。

  • criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:

    • 输入”entropy“,使用信息熵(Entropy)

    • 输入”gini“,使用基尼系数(Gini Impurity)

在实际使用中,信息熵和基尼系数的效果基本相同

信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。

因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生长会更加“精细”,因此对于高维数据或者噪音很多的数据,信息熵很容易过拟合,基尼系数在这种情况下效果往往比较好。

当模型拟合程度不足的时候,即当模型在训练集和测试集上都表现不太好的时候,使用信息熵。当然,这些不是绝对的。

from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_wine
import pandas as pd
# 红酒数据集
wine = load_wine()

print(wine.keys())
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])
print(wine.data.shape)
print(wine.target)
print(wine.feature_names)
print(wine.target_names)
(178, 13)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
['class_0' 'class_1' 'class_2']
pd.concat(
    # 在列上进行拼接
    [pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1
)

# 划分训练集和测试集
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target,test_size=0.3)

print(Xtrain.shape)
print(Xtest.shape)
(124, 13)
(54, 13)
# 模型创建与训练
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) # 返回预测的准确度
print(score)
import graphviz

# 画出决策树
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

dot = tree.export_graphviz(
    decision_tree=clf,
    out_file=None,
    feature_names=feature_name,
    class_names=["琴酒","雪莉","贝尔摩德"],
    filled=True,  # 填充颜色
    rounded=True  # 钝化角
)

graph = graphviz.Source(dot)

graph
# 特征重要性
sorted([*zip(feature_name,clf.feature_importances_)],key=lambda x:x[1],reverse=True)
[('od280/od315稀释葡萄酒', 0.4258755013151412),
 ('脯氨酸', 0.34593013978074255),
 ('酒精', 0.08094994077047969),
 ('颜色强度', 0.07600214535710607),
 ('色调', 0.03483435693073402),
 ('苹果酸', 0.02210497552631582),
 ('花青素', 0.014302940319480591),
 ('灰', 0.0),
 ('灰的碱性', 0.0),
 ('镁', 0.0),
 ('总酚', 0.0),
 ('类黄酮', 0.0),
 ('非黄烷类酚类', 0.0)]

总结如下:

  • 通常就使用基尼系数

  • 数据维度很大,噪音很大时使用基尼系数

  • 维度低,数据比较清晰的时候,信息熵和基尼系数没区别

  • 当决策树的拟合程度不够的时候,使用信息熵

  • 总之,两个都试试,不好就换另外一个

决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的节点能够保证最优的树吗?

集成算法被用来解决这个问题:既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。

怎样从一组数据集中建不同的树?在每次分枝时,不从使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了。

1.1.2 random_state & splitter

  • random_state随机模式参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。

  • splitter也是用来控制决策树中的随机选项的,有两种输入值

    • 输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝
    • 输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大。这也是防止过拟合的一种方式。当然,我们经常会使用剪枝参数来防止过拟合。
clf = tree.DecisionTreeClassifier(
    criterion='entropy',
    random_state=30,
    splitter='random'
)

clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) # 返回预测的准确度
print(score)

1.1.3 剪枝参数

决策树往往会过拟合,它会在训练集上表现很好,在测试集上却表现糟糕。 我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。

剪枝策略对决策树的影响巨大,正确的剪枝策略是优化决策树算法的核心。

sklearn为我们提供了不同的剪枝策略:

1.1.3.1 max_depth

限制树的最大深度,超过设定深度的树枝全部剪掉,这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。

决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。

在集成算法中也非常实用。

实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度

1.1.3.2 min_samples_leaf & min_samples_split

min_samples_leaf,限定一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生 。

  • 一般搭配max_depth使用,可以让模型变得更加平滑。

  • 这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。

  • 一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。

  • 同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。

  • 对于类别不多的分类问题,=1通常就是最佳选择。

min_samples_split,限定一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

clf = tree.DecisionTreeClassifier(criterion="entropy"
                                    ,random_state=30
                                    ,splitter="random"
                                    ,max_depth=3
                                    ,min_samples_leaf=10
                                    ,min_samples_split=10
                                 )

clf = clf.fit(Xtrain, Ytrain)

dot_data = tree.export_graphviz(clf
                                ,feature_names= feature_name
                                ,class_names=["琴酒","雪莉","贝尔摩德"]
                                ,filled=True
                                ,rounded=True
                                )

graph = graphviz.Source(dot_data)

graph
print(clf.score(Xtrain,Ytrain))
print(clf.score(Xtest,Ytest))
0.8951612903225806
0.8888888888888888
1.1.3.3 max_features & min_impurity_decrease

max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。

max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。

min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。

1.1.3.4 确认最优的剪枝参数

超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲线,它是用来衡量不同超参数取值下模型的表现的线。 我们可以通过学习曲线,来确定最优的剪枝参数。

import matplotlib.pyplot as plt

test = []

for i in range(10):
    clf = tree.DecisionTreeClassifier(
        max_depth= i + 1,
        criterion='entropy',
        random_state=30,
        splitter='random'
    )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)

plt.plot(range(1,11), test,color='green', label='max_depth')
plt.legend()
plt.show()

sklearn机器学习库(一)sklearn中的决策树,# 数据分析,机器学习,sklearn,决策树

这么多参数,需要一个个画学习曲线吗?我们在下面案例中,使用网格搜索来进行多个参数的调参。

剪枝参数的默认值会让树无尽地生长,这些树在某些数据集上可能非常巨大,对内存的消耗也非常巨大。所以如果你手中的数据集非常巨大,你已经预测到无论如何你都是要剪枝的,那提前设定这些参数来控制树的复杂性和大小会比较好。

1.1.3.5 class_weight & min_weight_fraction_leaf

样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例。比如说,在银行要判断“一个办了信用卡的人是否会违约”,是vs否(1%:99%)的比例。这种分类状况下,即便模型什么也不做,全把结果预测成“否”,正确率也能有99%。

因此我们要使用class_weight参数对样本标签进行一定的均衡,给少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None,此模式表示自动给与数据集中的所有标签相同的权重。

有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配min_weight_fraction_leaf这个基于权重的剪枝参数来使用。

1.2 重要的属性和接口

决策树来说,最重要的属性是feature_importances_,能够查看各个特征对模型的重要性。

sklearn中许多算法的接口都是相似的,比如说我们之前已经用到的fit和score,几乎对每个算法都可以使用。

除了这两个接口之外,决策树最常用的接口还有apply和predict。apply中输入测试集返回每个测试样本所在的叶子节点的索引,predict输入测试集返回每个测试样本的标签。

#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)

#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)

所有接口中要求输入X_train和X_test的部分,输入的特征矩阵必须至少是一个二维矩阵。sklearn不接受任何一维矩阵作为特征矩阵被输入。

2、DecisionTreeRegressor及其重要参数

DecisionTreeRegressor几乎所有参数,属性及接口都和分类树一模一样。

需要注意的是,在回归树中,没有标签分布是否均衡的问题,因此没有class_weight这样的参数 。

2.1 criterion

回归树衡量分枝质量的指标,支持的标准有三种:

  • 输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。

  • 输入“friedman_mse”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差

  • 输入"mae"使用绝对平均误差MAE(mean absolute error)

属性中最重要的依然是feature_importances_,接口依然是apply, fit, predict, score最核心 。

回归树中,MSE不只是我们的分枝质量衡量指标,也是我们最常用的衡量回归树回归质量的指标

当我们在使用交叉验证,或者其他方式获取回归树的结果时,我们往往选择均方误差作为我们的评估(在分类树中这个指标是score代表的预测准确率)。在回归中,我们追求的是,MSE越小越好。

回归树的接口score返回的是R平方,并不是MSE。 R平方可以为正为负(如果模型的残差平方和远远大于模型的总平方和,模型非常糟糕,R平方就会为负),而均方误差永远为正。

sklearn机器学习库(一)sklearn中的决策树,# 数据分析,机器学习,sklearn,决策树

其中: u是残差平方和(MSE * N),v是总平方和,N是样本数量,i是每一个数据样本,fi是模型回归出的数值,yi是样本点i实际的数值标签。y帽是真实数值标签的平均数。

注意:

虽然均方误差永远为正,但是sklearn当中使用均方误差作为评判标准时,却是计算负均方误差(neg_mean_squared_error)

这是因为sklearn在计算模型评估指标的时候,会考虑指标本身的性质,均方误差本身是一种误差,所以被sklearn划分为模型的一种损失(loss),因此在sklearn当中,都以负数表示。

真正的均方误差MSE的数值,其实就是neg_mean_squared_error去掉负号的数字。

import pandas as pd
from sklearn import tree
from sklearn.model_selection import cross_val_score

# 1、读取波士顿数据集,注意:新版本的sklearn中自带的已经删除
data = pd.read_csv("boston_housing.data", sep='\s+', header=None)

x = data.iloc[:, :-1]
y = data.iloc[:, -1]

# 2、交叉验证
regressor = tree.DecisionTreeRegressor(random_state=420)
cross_val_score(
    regressor,
    x,
    y,
    cv=10, # 10折交叉验证
    scoring='neg_mean_squared_error' # 负均方误差
).mean()

交叉验证是用来观察模型的稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果,因此用交叉验证n次的结果求出的平均值,是对模型效果的一个更好的度量。

2.2 一维回归的图像绘制小案例

我们用回归树来拟合正弦曲线,并添加一些噪声来观察回归树的表现。

import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt


'''
我们的基本思路是,先创建一组随机的,分布在0~5上的横坐标轴的取值(x),然后将这一组值放到sin函
数中去生成纵坐标的值(y),接着再到y上去添加噪声。
'''
rng = np.random.RandomState(1)


X = np.sort(5 * rng.rand(80,1), axis=0)
y = np.sin(X).ravel() # ravel()降维
y[::5] += 3 * (0.5 - rng.rand(16)) # 每隔5个,添加一个噪声数据

# 训练模型
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(X, y)
regr_2.fit(X, y)

# 测试数据
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis] # np.newaxis 升纬
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)

# 画图展示
plt.figure()
plt.figure(figsize=(8,6))
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

sklearn机器学习库(一)sklearn中的决策树,# 数据分析,机器学习,sklearn,决策树

回归树学习了近似正弦曲线的局部线性回归。

我们可以看到,如果树的最大深度(由max_depth参数控制)设置得太高,则决策树学习得太精细,它从训练数据中学了很多细节,包括噪声得呈现,从而使模型偏离真实的正弦曲线,形成过拟合。

3、实例:泰坦尼克号幸存者的预测

3.1 数据预处理和特征工程

import pandas as pd
from sklearn.model_selection import cross_val_score,train_test_split,GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from matplotlib import pyplot as plt
data = pd.read_csv(r'data.csv')

data.head()

sklearn机器学习库(一)sklearn中的决策树,# 数据分析,机器学习,sklearn,决策树

# 数据预处理

# 删除缺失值过多的列、以及和y没有关系的列
data.drop(['Cabin','Name','Ticket'], inplace=True,axis=1)
# 填充缺失值

# 缺失值较少的填充均值
data['Age'] = data['Age'].fillna(data['Age'].mean())
# 缺失值较多的,直接删除
data = data.dropna()



# 将分类变量转换为数值变量

# 性别是2分类变量
print(data['Sex'].unique().tolist())
# 性别转换为 male = 1 female = 0
data['Sex'] = (data['Sex'] == 'male').astype(int)

# Embarked是3分类变量
print(data['Embarked'].unique().tolist())

# 直接转换为list的下标
labels = data['Embarked'].unique().tolist()
data['Embarked'] = data['Embarked'].apply(lambda x: labels.index(x))

3.2 模型训练

# 划分训练集和测试集
X = data.iloc[:, 2:]
y = data.iloc[:, 1]


Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, y, test_size=0.3)
# 导入模型,粗略跑一下,查看结果
clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
score_ = clf.score(Xtest, Ytest)

print(score_)
# 通过学习曲线,观察在不同深度下模型拟合的状况
train_score = []
test_score = []


for i in range(10):
    clf = DecisionTreeClassifier(random_state=25, max_depth=(i + 1),criterion='entropy')
    clf = clf.fit(Xtrain, Ytrain)
    score_train = clf.score(Xtest, Ytest)
    # 使用全量的数据集求取交叉验证的均值
    score_test = cross_val_score(clf, X, y, cv=10).mean()
    train_score.append(score_train)
    test_score.append(score_test)

# 打印最大的测试分数,以及所在的索引
print(max(test_score),test_score.index(max(test_score)))
# 画图
plt.plot(range(1,11),train_score,color='orange',label='train')
plt.plot(range(1,11),test_score,color='green',label='test')
plt.xticks(range(1,11))
plt.legend()
plt.show()

sklearn机器学习库(一)sklearn中的决策树,# 数据分析,机器学习,sklearn,决策树文章来源地址https://www.toymoban.com/news/detail-645327.html

# 使用网格搜搜调整多个参数
import numpy as np


gini_thresholds = np.linspace(0,0.5,20)
parameters = {'splitter':('best','random')
                ,'criterion':("gini","entropy")
                ,"max_depth":[*range(1,10)]
                ,'min_samples_leaf':[*range(1,50,5)]
                ,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
                }


clf = DecisionTreeClassifier(random_state=25)

gs = GridSearchCV(clf,parameters, cv=10)

gs.fit(Xtrain, Ytrain)

print(gs.best_params_)
print(gs.best_score_)
{'criterion': 'entropy', 'max_depth': 4, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 11, 'splitter': 'random'}
0.8087301587301587

到了这里,关于sklearn机器学习库(一)sklearn中的决策树的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习--sklearn(决策树)

    决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 节点 根节点:没有进边,有出边。包含最初的,针对特征的提问。 中间节点:既有进边也有出边,进

    2023年04月18日
    浏览(34)
  • 神经决策树在物联网数据分析中的应用与优化

    物联网(Internet of Things,简称IoT)是指通过互联网将物体和日常生活中的各种设备连接起来,使得物体和设备能够互相传递信息,协同工作。随着物联网技术的不断发展,我们的生活、工作、交通等各个方面都受到了其影响。 在物联网中,数据是非常宝贵的。物联网设备会产生

    2024年02月19日
    浏览(58)
  • 【python库学习】 sklearn中的决策树Decision Trees

    一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列. 划分准则

    2024年04月28日
    浏览(42)
  • 机器学习与数据分析

    孤立森林(Isolation Forest)从原理到实践 效果评估:F-score 【1】 保护隐私的时间序列异常检测架构 概率后缀树 PST – (异常检测) 【1】 UEBA架构设计之路5: 概率后缀树模型 【2】 基于深度模型的日志序列异常检测 【3】 史上最全异常检测算法概述 后缀树 – (最长公共子串

    2024年02月10日
    浏览(40)
  • 机器学习和大数据:如何利用机器学习算法分析和预测大数据

      近年来,随着科技的迅速发展和数据的爆炸式增长,大数据已经成为我们生活中无法忽视的一部分。大数据不仅包含着海量的信息,而且蕴含着无数的商机和挑战。然而,如何从这些海量的数据中提取有价值的信息并做出准确的预测成为了许多企业和研究机构亟需解决的问

    2024年02月06日
    浏览(56)
  • 机器学习 探索性数据分析

    数据探索性分析(EDA)目的主要是了解整个数据集的基本情况(多少行、多少列、均值、方差、缺失值、异常值等);通过查看特征的分布、特征与标签之间的分布了解变量之间的相互关系、变量与预测值之间的存在关系;为特征工程做准备。 使用的数据是广告点击率预估挑

    2023年04月15日
    浏览(44)
  • Python数据分析—基于机器学习的UCI心脏病数据分析(源码+数据+分析设计)

    下载链接:https://pan.baidu.com/s/1ys2F6ZH4EgnFdVP2mkTcsA?pwd=LCFZ 提取码:LCFZ 心脏病是一类比较常见的循环系统疾病。循环系统由心脏、血管和调节血液循环的神经体液组织构成,循环系统疾病也称为心血管病,包括上述所有组织器官的疾病,在内科疾病中属于常见病,其中以心脏病

    2024年02月07日
    浏览(57)
  • Python机器学习实验 Python 数据分析

    掌握常见数据预处理方法,熟练运用数据分析方法,并掌握 Python 中的 Numpy、 Pandas 模块提供的数据分析方法。 1.   P a nd a s   基本数据处理 使用 Pandas 模块,完成以下操作。 (1)创建一个由 0 到 50 之间的整数组成的 10 行 5 列的 dataframe。如下: (2)汇总每一列的

    2024年04月09日
    浏览(40)
  • 毕业设计 英雄联盟数据分析与预测 -大数据分析 可视化 机器学习

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月05日
    浏览(111)
  • python数据分析与应用:第六章课后实训--应用sklearn分析竞标数据(全)

    实验时间 2023-04-26 (gcc的同学不要抄袭呀!) 一、实验目的 1、掌握skleam转换器的用法。 2、掌握训练集、测试集划分的方法。 3、掌握使用sklearm进行PCA降维的方法。 4、掌握 sklearn 估计器的用法。 5、掌握聚类模型的构建与评价方法。 6、掌握分类模型的构建与评价方法。

    2024年02月08日
    浏览(100)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包