机器学习实验三：肿瘤预测（决策树）-Toy模板网

这篇具有很好参考价值的文章主要介绍了机器学习实验三：肿瘤预测（决策树）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

实验要求

基于威斯康辛乳腺癌数据集，采用决策树的方法进行肿瘤预测。

【实验要求】

1.加载 sklearn 自带的威斯康星乳腺癌数据集，探索数据。

2.进行数据集分割。

3.配置决策树模型。

4.训练决策树模型。

5.模型预测。

6.模型评估。

7.参数调优。可以根据评估结果，对模型设置或调整为更优的参数，使评估结果更

准确。

实验过程

1.对该题目的理解

本项目是对美国威斯康星州的乳腺癌诊断数据集进行分类，该数据集包括569个病例的数据样本，每个样本具有30个特征值，而样本共分为两类：分别是恶性和良性，我们要利用决策树算法创建模型，训练模型，并对该模型进行评估和预测，最后再进行参数调优，根据评估的结果调整参数使结果更准确。

2.实现过程

（1）导入包。

代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import tree#导入决策树
from sklearn import metrics
from sklearn.datasets import load_breast_cancer# 导入威斯康星乳腺癌数据集
from sklearn.model_selection import train_test_split

（2）加载威斯康辛乳腺癌数据集，探索数据并对数据进行分割。

代码如下：

breast=load_breast_cancer()
data=pd.DataFrame(breast.data)
print(data.head())#输出前五行的data
target=pd.DataFrame(breast.target)
print(target.head())
data=breast['data']
target=breast['target']
feature_names=breast['feature_names']
df=pd.DataFrame(data,columns=(feature_names))
print("查看数据集的基本信息:",df.info())

train_X,test_X,train_y,test_y=train_test_split(data,target,test_size=0.2)
print(train_X.shape,train_y.shape)

（3）配置决策树模型并且训练该模型。

代码如下：

model=tree.DecisionTreeClassifier()#加载决策树模型

model.fit(train_X,train_y)#训练模型

（4）对模型进行预测评估。

代码如下：

pre_y=model.predict(test_X)#预测

print("准确率:",metrics.accuracy_score(test_y,pre_y))#模型评估。

（5）参数调优，根据评估结果，对模型设置或调整为更优的参数，使评估结果更准确。

代码如下：

#criterion参数的调整，默认为gini指数
#该参数对应的三个函数对应信息增益，增益率和基尼系数，每个函数对应的评价指标有所不同，有各自的特点。
#将该参数进行更换为信息增益--entropy。
model2=tree.DecisionTreeClassifier(criterion = 'entropy')
model2.fit(train_X,train_y)
pre_y=model2.predict(test_X)
print("criterion参数改为信息增益(entropy)的准确率:",metrics.accuracy_score(test_y,pre_y))

#max_depth最大深度的调整，默认为不限制最大深度
#该参数为树的最大深度，当样本中的特征较多时，设置适当的最大深度可以防止模型过拟合。
#尝试调整max_depth这个参数以达到模型更好的效果。

model3=tree.DecisionTreeClassifier(max_depth=2)
model3.fit(train_X,train_y)
pre_y=model3.predict(test_X)
print("max_depth深度参数改为2的准确率:",metrics.accuracy_score(test_y,pre_y))