【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一

这篇具有很好参考价值的文章主要介绍了【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Ⅰ、项目任务要求

  • 任务描述:将“diabetes”糖尿病患者数据集划分为训练集和测试集,利用训练集分别结合线性回归、岭回归、Lasso回归建立预测模型,再利用测试集来预测糖尿病患者病情并验证预测模型的拟合能力。
  • 具体任务要求如下:
    • 搜集并加载“diabetes”患者糖尿病指数数据集。
    • 定义训练集和测试集(训练集和测试集比例分别为8:2;7:3;6:4)。
    • 建立线性回归模型。
    • 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立岭回归模型。
    • 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立Lasso回归模型。
    • 分别用岭回归模型和Lasso回归模型通过测试集预测患者糖尿病病情。
    • 利用最小平均均方误差来评估上述三个预测模型的拟合能力。
    • 结果分析(上述三种预测模型的对比分析),建议图表结合说明并写出预测模型方程。

参考资料网址:

  • 机器学习总结(一):线性回归、岭回归、Lasso回归
  • 吴裕雄 数据挖掘与分析案例实战(7)——岭回归与LASSO回归模型
  • Python数据挖掘课程 五.线性回归知识及预测糖尿病实例
  • 数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归
  • 用岭回归和LASSO糖尿病治疗效果好坏

II、数据集描述(10)

。。。。。。(详细描述数据集:如特征属性名称及意义、记录数等)

III、主要算法原理及模型评价方法陈述(15分)

。。。。。。(写出项目中涉及的主要算法原理及模型评价方法)

IV、代码实现(45分)

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model, model_selection


# from sklearn import datasets, linear_model, discriminant_analysis, model_selection

# todo: 查看数据(训练集:X_train, y_train; 测试集X_test, y_test)
def check_data():
    with open("data/X_train.txt", "w") as file:
        for i in range(len(X_train)):
            file.write(f"【样本{i+1}】:{X_train[i]}\n")
    with open("data/y_train.txt", "w") as file:
        for i in range(len(y_train)):
            file.write(f"【样本{i+1}】:{y_train[i]}\n")
    with open("data/X_test.txt", "w") as file:
        for i in range(len(X_test)):
            file.write(f"【样本{i+1}】:{X_test[i]}\n")
    with open("data/y_test.txt", "w") as file:
        for i in range(len(y_test)):
            file.write(f"【样本{i+1}】:{y_test[i]}\n")

# todo: 可视化展示
def show_plot(alphas, scores):
    figure = plt.figure()
    ax = figure.add_subplot(1, 1, 1)
    ax.plot(alphas, scores)
    ax.set_xlabel(r"$\alpha$")
    ax.set_ylabel(r"score")
    ax.set_xscale("log")
    ax.set_title("Ridge")
    plt.show()


# Todo: 加载数据
# 加载糖尿病数据集
diabetes = datasets.load_diabetes()
# 使用 model_selection.train_test_split() 将数据集分成训练集和测试集,其中训练集占 75%,测试集占 25%(最佳)
# random_state 参数设置了随机种子,以确保结果的可重复性
X_train, X_test, y_train, y_test = model_selection.train_test_split(diabetes.data, diabetes.target, test_size=0.25, random_state=0)
# 查看划分数据(保存至data/*)
check_data()


# Todo: 建立线性回归模型
print('========== ※ 线性回归模型 ※ ==========')
# 通过sklearn的 linear_model 创建线性回归对象
linearRegression = linear_model.LinearRegression()
# 进行训练
linearRegression.fit(X_train, y_train)
# 通过LinearRegression的coef_属性获得权重向量,intercept_获得b的值
print("权重向量:%s, b的值为:%.2f" % (linearRegression.coef_, linearRegression.intercept_))
# 计算出损失函数的值
print("损失函数的值: %.2f" % np.mean((linearRegression.predict(X_test) - y_test) ** 2))
# 计算预测性能得分
print("预测性能得分: %.2f" % linearRegression.score(X_test, y_test))


# Todo: 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立岭回归模型
print('========== ※ 岭回归模型 ※ ==========')
ridgeRegression = linear_model.Ridge()
ridgeRegression.fit(X_train, y_train)
print("权重向量:%s, b的值为:%.2f" % (ridgeRegression.coef_, ridgeRegression.intercept_))
print("损失函数的值:%.2f" % np.mean((ridgeRegression.predict(X_test) - y_test) ** 2))
print("预测性能得分: %.2f" % ridgeRegression.score(X_test, y_test))

# todo: 测试不同的α值对预测性能的影响
alphas = [0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000]
scores = []
for i, alpha in enumerate(alphas):
    ridgeRegression = linear_model.Ridge(alpha=alpha)
    ridgeRegression.fit(X_train, y_train)
    scores.append(ridgeRegression.score(X_test, y_test))
show_plot(alphas, scores)


# Todo: 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立Lasso回归模型
print('========== ※ Lasso归模型 ※ ==========')
lassoRegression = linear_model.Lasso()
lassoRegression.fit(X_train, y_train)
print("权重向量:%s, b的值为:%.2f" % (lassoRegression.coef_, lassoRegression.intercept_))
print("损失函数的值:%.2f" % np.mean((lassoRegression.predict(X_test) - y_test) ** 2))
print("预测性能得分: %.2f" % lassoRegression.score(X_test, y_test))

# todo: 测试不同的α值对预测性能的影响
alphas = [0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000]
lassos_scores = []
for i, alpha in enumerate(alphas):
    lassoRegression = linear_model.Lasso(alpha=alpha)
    lassoRegression.fit(X_train, y_train)
    lassos_scores.append(lassoRegression.score(X_test, y_test))
show_plot(alphas, lassos_scores)

V、运行结果截图(15分)

【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一,【数据科学与大数据技术】,回归,线性回归,算法

  • 岭回归
    【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一,【数据科学与大数据技术】,回归,线性回归,算法
  • Lasso回归
    【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一,【数据科学与大数据技术】,回归,线性回归,算法

VI、结果分析(15分)

。。。。。。(详细分析结果)文章来源地址https://www.toymoban.com/news/detail-731253.html

VII、小组分工及贡献比

到了这里,关于【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据分析案例-基于LightGBM算法构建糖尿病确诊预测模型

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章 大数据分析案例合集

    2024年02月11日
    浏览(36)
  • 糖尿病预测模型-Pima印第安人数据集-论文_企业科研

    糖尿病概述 糖尿病有一型和二型,是由于胰腺分泌胰岛素紊乱或人体无法有效利用其产生的胰岛素而发生的一种慢性疾病,是21世纪人类面临的健康问题之一.糖尿病伴有弥漫性并发症,其包括心血管病变、肾脏疾病、高血压、中风等、眼部疾病、下肢截肢上百种,由此增

    2024年02月09日
    浏览(32)
  • 互联网加竞赛 基于机器学习与大数据的糖尿病预测

    🔥 优质竞赛项目系列,今天要分享的是 基于机器学习与大数据的糖尿病预测 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 🧿 更多资料, 项目分享: https://gitee.com/dancheng-

    2024年01月16日
    浏览(31)
  • 计算机毕设 基于机器学习与大数据的糖尿病预测

    # 1 前言 🚩 基于机器学习与大数据的糖尿病预测 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 本项目的目的主要是对糖尿病进行预测。主要依托某医院体检数据(处理后),首先进行了数据的描述性统计。后续针对数据的特征进行特

    2024年02月11日
    浏览(28)
  • 【阿旭机器学习实战】【36】糖尿病预测---决策树建模及其可视化

    【阿旭机器学习实战】系列文章主要介绍机器学习的各种算法模型及其实战案例,欢迎点赞,关注共同学习交流。 关注GZH: 阿旭算法与机器学习 ,回复:“ ML36 ”即可获取本文数据集、源码与项目文档 pregnant glucose bp skin insulin bmi pedigree age label 0 6 148 72 35 0 33.6 0.627 50 1 1 1

    2024年02月11日
    浏览(39)
  • 使用Keras构建分类问题的MLP神经网络——用于糖尿病预测

            大家好,我是带我去滑雪!          Keras 是一个用于构建和训练深度学习模型的高级 API,它基于 Python编写,并能够运行于 TensorFlow, CNTK, 或者 Theano 等深度学习框架之上。Keras简化了深度神经网络的构建流程,让用户能够更加简单、快速地搭建一个完整的深度学习模

    2024年02月05日
    浏览(31)
  • 数据分析毕业设计 大数据糖尿病预测与可视化 - 机器学习 python

    # 1 前言 🚩 基于机器学习与大数据的糖尿病预测 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 选题指导,项目分享: https://gitee.com/yaa-dc/warehouse-1/blob/master/python/README.md 本项目的目的主要是对糖尿病进行预测。主要依托某医院体检数

    2024年02月08日
    浏览(38)
  • 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

    进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构

    2023年04月09日
    浏览(40)
  • R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化...

    Reaven和Miller(1979)研究了145名非肥胖成年人的葡萄糖耐量和胰岛素血液化学指标之间的关系。他们使用斯坦福线性加速器中心的PRIM9系统将数据可视化为3D,并发现了一个奇特的图案,看起来像是一个有两个翼的大斑点 ( 点击文末“阅读原文”获取完整 代码数据 )。 相关视

    2024年02月07日
    浏览(29)
  • Python课程设计项目-基于机器学习的糖尿病风险预警分析系统

    这个东西是我大二时候做的,做的挺一般的,当时也没想着搭建界面啥的,测试的也不够,就是单纯的分享一下吧,不足之处大家多多指正,我会把所有的代码和数据在文章最后都放出来,喜欢的话点个赞吧! [摘 要] 糖尿病是一种全球性的流行性疾病,随着经济生活的高速

    2024年02月03日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包