Python利用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测实战(超详细 附源码)

这篇具有很好参考价值的文章主要介绍了Python利用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测实战(超详细 附源码)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

需要源码请点赞关注收藏后评论区留言并且私信~~~

在本案例中,利用逻辑回归分类器对乳腺肿瘤进行良性/恶行预测,并对预测模型进行指标测算与评价。

一、数据集准备与处理

本案例数据集采用乳腺癌数据集,原始数据集的下载地址为数据集下载地址

数据特征包括细胞厚度、细胞大小、形状等九个属性,将每个属性的特征量化为1-10的数值进行表示,首先导入数据 并显示前五条数据

python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

可以浏览数据的基本信息如下

 python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

调用describe函数查看数据的基本的统计信息如下

python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

 统计数据属性中的空缺值

python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

如果数据中存在空缺数据需要丢弃或填充。该数据集中包含了16个缺失值用“?”标出。因此要删除有缺失值的数据 

python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

.将数据划分为训练集和测试集

 python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

标准化数据,每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值主导

 二、模型训练与性能评估

分别用LogisticRegression与SGDClassifier构建分类器

LR分类器性能分析 如下图所示 精度可以达到百分之九十八点八左右

python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

 SGD分类器性能分析 如下图所示 精度可以达到百分之九十六左右               

python乳腺癌数据分析过程,数据挖掘,机器学习,python,逻辑回归,数据挖掘,人工智能

 LogisticRegression较SGDClassifier在测试集上有更高的准确率,这时因为scikit-learn中采用解析的方法精确计算LogisticRegression的参数,而使用梯度法估计SGDClassifier中的参数

三、代码

部分代码如下 需要全部代码请点赞关注收藏后评论区留言并且私信

import pandas as pd
import numpy as np
column_names=['number','Cl_Thickness','Unif_cell_size','Unif_cell_shape','Marg_Adhesion','Sing_epith_cell_size','Bare_nuclei','Bland_chromation','Norm_nuclei','Mitoses','Class']
data=pd.read_csv('breast-cancer-wisconsin.data',names=column_names)
display(data.head())
data=data.replachow='any')
print(data.shape)
from sklearn.model_selection import train_test_split
# 划分训练集与测试集
X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)
printlearn.preprocessing import StandardScaler
ss=StandardScaler()
X_train=ss.fit_transform(X_train)
X_test=ss.transform(X_test)
print(X_train.mean())
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
lr=Logitrain,y_train)
lr_y_predict=lr.predict(X_test)
sgdc.fit(X_train,y_train)
sgdc_y_predict=sgdc.predict(X_test)
from sklearn.metrics import classification_report
print('Accuracy of LR Classifier:',lr.score(X_test,y_test))
print(classification_report(y_test,lr_y_predict,target_names=['Benign','Malignant']))
print('Accuracy of SGD Classifier:',sgdc.score(X_test,y_test))
print(classification_report(y_test,sgdc_y_predict,target_names=['Benign','Malignant']))

创作不易 觉得有帮助请点赞关注收藏~~~文章来源地址https://www.toymoban.com/news/detail-755286.html

到了这里,关于Python利用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测实战(超详细 附源码)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python机器学习】实验04 多分类实践(基于逻辑回归)

    Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Se

    2024年02月11日
    浏览(47)
  • 【Python机器学习】实验04(1) 多分类(基于逻辑回归)实践

    Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Se

    2024年02月14日
    浏览(47)
  • 机器学习实战:Python基于Logistic逻辑回归进行分类预测(一)

    1.1 Logistic回归的介绍 逻辑回归( Logistic regression ,简称 LR )是一种经典的二分类算法,它将输入特征与一个sigmoid函数进行线性组合,从而预测输出标签的概率。该算法常被用于预测离散的二元结果,例如是/否、真/假等。 优点: 实现简单。Logistic回归的参数可以用极大似然

    2024年02月08日
    浏览(42)
  • python机器学习——分类模型评估 & 分类算法(k近邻,朴素贝叶斯,决策树,随机森林,逻辑回归,svm)

    交叉验证:为了让被评估的模型更加准确可信 交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。 通常情

    2024年02月03日
    浏览(67)
  • 【Python机器学习】决策树、逻辑回归、神经网络等模型对电信用户流失分类实战(附源码和数据集)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 该实例数据来自kaggle,它的每一条数据为一个用户的信息,共有21个有效字段,其中最后一个字段Churn标志该用户是否流失   可用pandas的read_csv()函数来读取数据,用DataFrame的head()、shape、info()、duplicated()、nunique()等来初步

    2024年02月03日
    浏览(49)
  • 使用逻辑回归LogisticRegression来对我们自己的数据excel或者csv数据进行分类--------python程序代码,可直接运行

    逻辑回归是一种用于二分类问题的机器学习算法。它基于对输入特征进行加权求和,然后将这个求和结果传入一个sigmoid函数中来预测输出标签的概率。在训练过程中,我们需要使用极大似然估计来更新模型参数,以便使模型的预测结果最符合实际情况。 逻辑回归是一种分类

    2024年02月10日
    浏览(42)
  • 【机器学习】逻辑回归(二元分类)

    离散感知器:输出的预测值仅为 0 或 1 连续感知器(逻辑分类器):输出的预测值可以是 0 到 1 的任何数字,标签为 0 的点输出接近于 0 的数,标签为 1 的点输出接近于 1 的数 逻辑回归算法(logistics regression algorithm):用于训练逻辑分类器的算法 sigmoid 函数: g ( z ) = 1 1 +

    2024年02月21日
    浏览(51)
  • 无涯教程-分类算法 - 逻辑回归

    逻辑回归是一种监督学习分类算法,用于预测目标变量的概率,目标或因变量的性质是二分法,这意味着将只有两种可能的类。 简而言之,因变量本质上是二进制的,其数据编码为1(代表成功/是)或0(代表失败/否)。 在数学上,逻辑回归模型预测P(Y=1)作为X的函数。它是最简单

    2024年02月11日
    浏览(37)
  • 逻辑回归(解决分类问题)

    定义: 逻辑回归是一种用于解决分类问题的统计学习方法。它通过对数据进行建模,预测一个事件发生的概率。逻辑回归通常用于 二元分类问题 ,即将数据分为两个类别。它 基于线性回归 模型,但使用了逻辑函数(也称为S形函数)来将输出限制在0到1之间,表示事件发生

    2024年01月15日
    浏览(33)
  • 分类算法-逻辑回归与二分类

    广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。 2.1 输入 逻辑回归的输入就是一个线性回归的结果。 2.2 激活函数 sigmoid函数 分析 回归的结果输

    2024年02月07日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包