R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证

这篇具有很好参考价值的文章主要介绍了R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。
地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
既往咱们通过多篇文章对复杂加权数据的线性模型、逻辑回归模型、生存分析模型进行了分析。我们在建立数据模型后通常希望在外部数据验证模型的检验能力。然而当没有外部数据可以验证的时候,交叉验证也不失为一种方法。交叉验验证(交叉验证,CV)则是一种评估模型泛化能力的方法,广泛应用中于数证据采挖掘和机器学习领域,在交叉验证通常将数据集分为两部分,一部分为训练集,用于建立预测模型;另一部分为测试集,用于测试该模型的泛化能力。
咱们既往文章《基于R语言进行K折交叉验证》介绍了普通数据交叉验证,今天咱们来介绍一下使用surveyCV包进行复杂加权数据交叉验证,
该包通过在创建 CV 折叠以及计算测试集损失估计时考虑分层、聚类、FPC 的调查权重MSE(均方误差),对复杂的调查数据实现交叉验证 (CV)。模型,或逻辑模型的二元交叉熵)。
咱们先导入R包和数据

library(surveyCV)
library(survey)
library(ISLR)
data("api")

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
这次使用survey自带的加州学生的数据,包含有学生的成绩和其他数据。这个数据集带有6个数据,咱们使用的是apistrat数据
假设咱们想了解api00和ell线性关系,nfolds代表你想用多少折,其他都是一些调查函数的参数。
咱们先写出它的函数,这是一个默认线性函数

a<-"api00~ell"
cv.svy(apistrat, a,
       nfolds = 10, strataID = "stype", weightsID = "pw", fpcID = "fpc")

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
这样结果就出来了,这里的mean相当于MSE的平均值,表示误差的平均值,它可以有助于改善我们的模型,它和单用svymean函数这种算法是完全不一样的
如果咱们想了解多个模型

cv.svy(apistrat, c("api00~ell",
                   "api00~ell+meals",
                   "api00~ell+meals+mobility"),
       nfolds = 10, strataID = "stype", weightsID = "pw", fpcID = "fpc") 

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
这样就轻松出结果了,非常方便好用。我们可以看到添加协变量以后,MSE出现明显变化,变小了,表明添加协变量有助于改善MSE。
如果我们想指定集群而不是分层,更改一下clusterID这个变量,也非常方便

cv.svy(apiclus1, c("api00~ell",
                   "api00~ell+meals",
                   "api00~ell+meals+mobility"),
       nfolds = 10, clusterID = "dnum", weightsID = "pw", fpcID = "fpc")

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
如果咱们是有调查函数的,咱们需要用到cv.svydesign这个函数,指定一下就可以了

dstrat <- svydesign(id = ~1, strata = ~stype, weights = ~pw, data = apistrat, fpc = ~fpc)
cv.svydesign(formulae = c("api00~ell",
                          "api00~ell+meals",
                          "api00~ell+meals+mobility"),
             design_object = dstrat, nfolds = 10)

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
如果是已经生成了svyglm模型的,咱们需要使用cv.svyglm这个函数指定

glmstrat <- svyglm(api00 ~ ell+meals+mobility, design = dstrat)
cv.svyglm(glmstrat, nfolds = 10)

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
如果咱们是逻辑回归而不是线性回归,先生成一个调查函数

library(splines)
NSFG.svydes <- svydesign(id = ~SECU, strata = ~strata, nest = TRUE,
                         weights = ~wgt, data = NSFG_data)

生成结果

NSFG.svyglm.logistic <- svyglm(LBW ~ ns(age, df = 3), design = NSFG.svydes,
                               family = quasibinomial())
cv.svyglm(glm_object = NSFG.svyglm.logistic, nfolds = 4)

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证,R语言,Nhanes临床数据库,r语言,开发语言
在这种情况下,平均列显示二进制交叉熵损失的平均值。文章来源地址https://www.toymoban.com/news/detail-740098.html

到了这里,关于R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据...

    本教程为读者提供了使用频率学派的广义线性模型(GLM)的基本介绍。具体来说,本教程重点介绍逻辑回归在二元结果和计数/比例结果情况下的使用,以及模型评估的方法 ( 点击文末“阅读原文”获取完整 代码数据 )。 本教程使用教育数据例子进行模型的应用。此外,本

    2024年02月16日
    浏览(42)
  • R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享...

    综合社会调查(GSS)是由国家舆论研究中心开展的一项观察性研究。自 1972 年以来,GSS 一直通过收集当代社会的数据来监测社会学和态度趋势。其目的是解释态度、行为和属性的趋势和常量。从 1972 年到 2004 年,GSS 的目标人群是居住在家庭中的成年人(18 岁以上) ( 点击文

    2024年02月10日
    浏览(40)
  • c语言版:数据结构(时间复杂度,空间复杂度,练习)

        时间复杂度是用来衡量算法执行时间的一个指标。它表示随着输入规模的增加,算法执行时间的增长率。时间复杂度通常用大O符号表示。    在计算时间复杂度时,通常会 忽略常数项、低阶项和系数项 , 只关注随着输入规模增长而导致的主要影响。这是因为在实际应用

    2024年01月21日
    浏览(49)
  • C语言数据结构复杂度

    从这篇博客开始为数据结构与算法的相关内容,数据结构比较难,博主建议大家每学完一章便去力扣刷题,前期可以多看几遍答案在去敲,学好数据结构需要大量的代码作为支撑,光有概念是不行的。若想要看数据结构与算法的相关书籍,博主强推《大话数据结构》,个人认

    2024年02月02日
    浏览(32)
  • R语言绘制逆概率加权后的基线表

    基于 PS (倾向评分)的逆概率加权(IPTW )法首先由Rosenbaum作为一种以模型为基础的直接标准化法提出,属于边际结构模型。简单来说,就是把许多协变量和混杂因素打包成一个概率并进行加权,这样的话,我只用计算它的权重就可以了,方便了许多。那么,如何将多个协变量

    2024年02月15日
    浏览(33)
  • 初阶数据结构之---导论,算法时间复杂度和空间复杂度(C语言)

    数据结构其实也学了挺长时间了,说着是要刷题所以才没怎么去写关于数据结构方面的内容。数据结构作为计算机中及其重要的一环,如果不趁着假期系统整理一下着实可惜,我这里构想的是将初阶数据结构和高阶数据结构,分别分成两个部分,初阶数据结构呢,大概有以下

    2024年02月22日
    浏览(52)
  • 代码+视频R语言绘制逆概率加权后的基线表

    基于 PS (倾向评分)的逆概率加权(IPTW )法首先由Rosenbaum作为一种以模型为基础的直接标准化法提出,属于边际结构模型。简单来说,就是把许多协变量和混杂因素打包成一个概率并进行加权,这样的话,我只用计算它的权重就可以了,方便了许多。那么,如何将多个协变量

    2024年01月23日
    浏览(36)
  • 【c语言指针详解】复杂数据结构的指针用法

    目录 一、动态内存分配 1.1 使用malloc和free函数进行内存的动态分配和释放 1.2 内存泄漏和野指针的概念和解决方法 二、复杂数据结构的指针用法 2.1 结构体指针和成员访问操作符 2.2 指针数组和指向指针的指针 2.2.1 指针数组 2.2.2 指向指针的指针 2.3 动态内存分配与结构体

    2024年02月04日
    浏览(47)
  • [数据结构-C语言] 算法的时间复杂度

    目录 1.算法的复杂度 2.时间复杂度 2.1 时间复杂度的概念 2.2 大O的渐进表示法 3、常见时间复杂度计算举例 3.1 冒泡排序 3.2 二分查找 3.3 阶乘递归 3.4 斐波那契数列 1.算法的复杂度 算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源 。因此 衡量一个算法的

    2024年02月02日
    浏览(46)
  • 代码+视频R语言3组以上倾向评分逆概率加权(IPTW)

    基于 PS (倾向评分)的IPTW 法首先由Rosenbaum作为一种以模型为基础的直接标准化法提出,属于边际结构模型。简单来说,就是把许多协变量和混杂因素打包成一个概率并进行加权,这样的话,我只用计算它的权重就可以了,方便了许多。那么,如何将多个协变量的影响用一

    2024年01月18日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包