心血管疾病预测--逻辑回归实现二分类

这篇具有很好参考价值的文章主要介绍了心血管疾病预测--逻辑回归实现二分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实现效果

  实现心血管疾病的预测准确率70%以上

二、数据集介绍

 数据共计70000条,其中心血管疾病患者人数为34979,未患病人数为35021。数据特征属性12个分别为如下所示:生理指标(性别、年龄、体重、身高等)、 医疗检测指标(血压、血糖、胆固醇水平等)和患者提供的主观信息(吸烟、饮酒、运动等):

age年龄
gender性别 1女性, 2 男性
height身高
weight 体重
ap_hi收缩压
ap_lo 舒张压
cholesterol胆固醇 1:正常; 2:高于正常; 3:远高于正常

gluc 葡萄糖,1:正常; 2:高于正常; 3:远高于正常

smoke 病人是否吸烟 alco 酒精摄入量

active 体育活动

cardio 有无心血管疾病,0:无;1:有

数据来源;http://idatascience.cn/

三、实现步骤

3.1 数据导入与分析

# 导入需要的工具包
import pandas as pd # data processing
import numpy as np
import matplotlib.pyplot as plt
#matplotlib inline
import seaborn as sns  # plot

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings("ignore")
import random


data = pd.read_csv('E: /心脏疾病预测分析/cardio_train.csv',sep=',')
data.drop(columns=['id'],inplace=True)
data.head()

 心血管疾病预测--逻辑回归实现二分类

 

 相关性分析:

correlations = data.corr()['cardio'].drop('cardio') #drop默认删除行
print(correlations)

心血管疾病预测--逻辑回归实现二分类 

 

3.2  划分数据集(训练数据集、测试数据集、验证数据集)

# 切分数据集
np.random.seed(1)#便于调试代码(设置种子-保证执行代码样本及结果一致--稳定复现结果)
# 获取当前随机状态
state = random.getstate()
# 获取随机种子
seed = state[1][0]

msk = np.random.rand(len(data))<0.85
df_train_test = data[msk]# 筛选出59450个随机样本
df_val = data[~msk]#剩下的随机样本--用作验证数据集

X = df_train_test.drop('cardio',axis=1)#删除最后一列,只包含样本特征
y = df_train_test['cardio']#样本对应的标签
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=70)#调用的训练和测试数据集样本划分函数

3.3  数据标准化

# 数据标准化
scale = StandardScaler()
scale.fit(X_train)
X_train_scaled = scale.transform(X_train)
X_train_ = pd.DataFrame(X_train_scaled,columns=data.columns[:-1])#添加列名,除去最后一列名(标签)

scale.fit(X_test)
X_test_scaled = scale.transform(X_test)
X_test_ = pd.DataFrame(X_test_scaled,columns=data.columns[:-1])

 3.4  特征选择

逻辑回归默认的算法为:lbfgs,L2正则化项。

模型的具体参数信息:

心血管疾病预测--逻辑回归实现二分类


#特征选择
def feat_select(threshold):
    abs_cor = correlations.abs()
    features = abs_cor[abs_cor > threshold].index.tolist()
return features
def model(mod,X_tr,X_te):
mod.fit(X_tr,y_train)
pred = mod.predict(X_te)
print('Model score = ',mod.score(X_te,y_test)*100,'%')#子集准确性
# 逻辑回归
 #筛选出合适的阈值
lr = LogisticRegression()
#lr = LogisticRegression(penalty='l2', solver='saga')
# lr = LogisticRegression(solver='newton-cholesky')
# lr = LogisticRegression(solver='sag')
# lr = LogisticRegression(solver='newton-cg')

threshold = [0.001,0.002,0.005,0.01,0.02,0.05,0.06,0.08,0.1]
for i in threshold:
    print("Threshold is {}".format(i))
    feature_i = feat_select(i)
    X_train_i = X_train[feature_i]#训练集
    X_test_i = X_test[feature_i]#测试集
    model(lr,X_train_i,X_test_i)
feat_final = feat_select(0.005)# 筛选出重要特征,列表
print(feat_final)

心血管疾病预测--逻辑回归实现二分类

 3.5  预测及结果评估

#验证数据集的标准化
X_val = np.asanyarray(df_val[feat_final])#删除最后一列,只包含样本特征  --转换为数组
y_val = np.asanyarray(df_val['cardio']) #--转换为数组

scale.fit(X_val)
X_val_scaled = scale.transform(X_val)
X_val_ = pd.DataFrame(X_val_scaled,columns=df_val[feat_final].columns)

#逻辑回归预测
lr.fit(X_train,y_train)
pred = lr.predict(X_val_)
#结果评估
print('Confusion Matrix =\n',confusion_matrix(y_val,pred))
print('\n',classification_report(y_val,pred))
lr.get_params()

心血管疾病预测--逻辑回归实现二分类

 参考:

   sklearn.linear_model.LogisticRegression — scikit-learn 1.2.2 documentation文章来源地址https://www.toymoban.com/news/detail-435816.html

到了这里,关于心血管疾病预测--逻辑回归实现二分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python实现逻辑回归-清风数学建模-二分类水果数据

    👉👉👉二分类水果数据 可以看到有4个特征,2种分类结果,最后4个没有分类结果的数据是拿来预测的 X(特征) … Y(target) 最后四个预测结果: 先用特征组合展示数据散点图,从直观上看哪些特征能有效区分水果 分类准确率不算太高:清风视频里用的spss准确率也只有

    2024年02月15日
    浏览(42)
  • 分类预测 | Python实现LR逻辑回归多输入分类预测

    基本介绍 逻辑回归是一种广义线性的分类模型且其模型结构可以视为单层的神经网络,由一层输入层、一层仅带有一个sigmoid激活函数的神经元的输出层组成,而无隐藏层。其模型的功能可以简化成两步,“通过模型权重[w]对输入特征[x]线性求和+sigmoid激活输出概率”。 模型

    2024年02月13日
    浏览(44)
  • 基于逻辑回归实现乳腺癌预测(机械学习与大数据)

    将乳腺癌数据集拆分成训练集和测试集,搭建一个逻辑回归模型,对训练集进行训练,然后分别对训练集和测试集进行预测。输出以下结果: 该模型在训练集上的准确率,在测试集上的准确率、召回率和精确率。

    2024年03月11日
    浏览(43)
  • 二分类逻辑回归原理与复现

    复现二分类LogisticRegression(逻辑回归),加深模型的理解与复现能力。 文中会给出伪代码和相关的具体计算案例帮助理解。 逻辑回归(Logistic Regression)是一种用于解决分类问题的统计学习方法。与线性回归不同,逻辑回归的因变量是离散的而非连续的。它通过建立一个逻辑回

    2024年02月11日
    浏览(31)
  • 分类算法-逻辑回归与二分类

    广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。 2.1 输入 逻辑回归的输入就是一个线性回归的结果。 2.2 激活函数 sigmoid函数 分析 回归的结果输

    2024年02月07日
    浏览(47)
  • 机器学习基础之《回归与聚类算法(4)—逻辑回归与二分类(分类算法)》

    一、什么是逻辑回归 1、逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛 2、叫回归,但是它是一个分类算法 二、逻辑回归的应用场

    2024年02月07日
    浏览(55)
  • 二分类结局变量Logistic回归临床模型预测—— 外部数据集验证

      1. 介绍 2. 基线特征 3. 单因素多因素logistic回归分析及三线表 4. 构建临床列线图模型 5. 模型评价 6. 外部数据集验证 7. 另一种发文章的办法,分训练集和测试集,分析上述3-6节的内容 外部数据集验证,就是找一个别的数据集,可以是别家医院的,也可是数据库的,但是前提

    2024年02月12日
    浏览(65)
  • 基于逻辑回归构建肿瘤预测模型

    乳腺癌数据集包括569个样本,每个样本有30个特征值(病灶特征数据),每个样本都属于恶性(0)或良性(1)两个类别之一,要求使用逻辑回归(LR)算法建立预测模型,实现准确预测新的病灶数据的类型(恶性或良性)。 样本特征数据为病灶影像的测量数据,部分特征如下

    2023年04月14日
    浏览(39)
  • 多元回归预测 | Matlab基于逻辑回归(Logistic Regression)的数据回归预测,多输入单输出模型

    效果一览 文章概述 多元回归预测 | Matlab基于逻辑回归(Logistic Regression)的数据回归预测,多输入单输出模型 评价指标包括:MAE、RMSE和R2等,代码质量极高,方便学习和替换数据。要求2018版本及以上。 部分源码

    2024年02月13日
    浏览(56)
  • 机器学习算法(一): 基于逻辑回归的分类预测

    逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有\\\"回归\\\"两个字,但逻辑回归其实是一个 分类 模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。 而对于

    2024年01月15日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包