环境混合物总体效应:加权分位数和回归(WQS)

这篇具有很好参考价值的文章主要介绍了环境混合物总体效应:加权分位数和回归(WQS)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 WQS原理

加权分位数和(Weighted Quantile Sum, WQS)回归是一种在环境暴露中常见的高维数据集的多元回归的统计模型。该模型允许通过有监督的方式构建一个加权指数,以评估环境暴露的总体效应以及混合物中每一个成分对总体效应的贡献。

首先若某一类环境混合物中共有i个component,将每个component的值按分位数编码,如1st,2nd,3rd, 4th 分位数分别编为qi = 1,2,3,4。

WQS的拟合的模型如下:
wqs模型,r语言,大数据,统计学,统计模型
其中wi是环境混合物中每一个成分的权重,β1是加权分位数和指数(WQS指数)的回归系数,也就是环境混合物的总体效应。wqs模型,r语言,大数据,统计学,统计模型
wqs模型,r语言,大数据,统计学,统计模型
如图中所示流程,为了估计各成分的权重,构建WQS指数,WQS算法首先将数据集分为训练集和验证集,训练集用于权重的估计,验证集用于测试最终 WQS 指数的显着性。为了提高模型的稳定性,在训练集里进行B次自助抽样(B=100或1000)
wqs模型,r语言,大数据,统计学,统计模型

wqs模型,r语言,大数据,统计学,统计模型
最后取100次自主抽样得到的权重的均值,或者只取100此中β1显著的那些次的权重均值作为最终得到的权重,然后在验证集中拟合模型(当样本量足够大时),若样本量小,也可在全部数据集中检验β1的显著性:
wqs模型,r语言,大数据,统计学,统计模型
WQS的假设是:在混合物中每个暴露的效应都是同方向的(全为正或全为负),本质上是单向的,因为它只测试与给定结果正相关或负相关的混合效应。因此,在实践中,分析应该运行两次以测试正负两方向的关联。

2 WQS R语言示例

R语言的“gWQS”包可以实现WQS, 使用包里自带的示例数据wqs_data

install.packages("gWQS")
library(gWQS)
data(wqs_data)
toxic_chems <- names(wqs_data)[1:34]

# we run the model and save the results in the variable "results"
results <- gwqs(y ~ wqs, mix_name = toxic_chems,
                data = wqs_data, q = 4, validation = 0.6, b = 100,
                b1_pos = TRUE, b1_constr = FALSE, family = "gaussian",
                seed = 1, plots = TRUE, tables = TRUE)

该WQS模型检验了我们的因变量y和根据四分位数暴露浓度排序估计的WQS指数之间的关系(q=4);toxic_chems是混合物中所有components的名字,b=100为bootstrap的次数;60%的样本作为验证集;因为WQS只提供了混合效应的单向评估,我们只估计β1为正的权重(b1_pos=TRUE);我们可以通过将该参数设置为假(b1_pos=false)来检验负关联。当我们估计权重时,我们也可以选择将β1约束为正(b1_pos=TRUE和b1_constr=TRUE)或负(b1_pos=false和b1_constr=TRUE);seed为种子点

之后我们对权重进行排序并绘制权重的条形图:

w_ord <- order(results$final_weights$mean_weight)
mean_weight <- results$final_weights$mean_weight[w_ord]
mix_name <- factor(results$final_weights$mix_name[w_ord],
                      levels = results$final_weights$mix_name[w_ord])
data_plot <- data.frame(mean_weight, mix_name)
ggplot(data_plot, aes(x = mix_name, y = mean_weight, fill = mix_name)) +
  geom_bar(stat = "identity", color = "black") + theme_bw() +
  theme(axis.ticks = element_blank(),
           axis.title = element_blank(),
          axis.text.x = element_text(color='black'),
          legend.position = "none") + coord_flip()

wqs模型,r语言,大数据,统计学,统计模型
以及y和wqs指数的散点图加拟合线:

# scatter plot y vs wqs
 ggplot(results$y_wqs_df, aes(wqs, y_adj)) + geom_point() +
 stat_smooth(method = "loess", se = FALSE, size = 1.5) + theme_bw()

wqs模型,r语言,大数据,统计学,统计模型
WQS 回归可以应用于多种类型的因变量,可以用逻辑回归、多项式、泊松和负二项式回归。WQS 的一个限制是由于必须将数据集拆分为训练集和验证集而导致的统计能力降低, 这种划分也可能导致不具代表性的数据集和不稳定的参数估计。

最后值得一提的是WQS的扩展方法:Bayesian WQS (Colicino et al. (2020)),它允许放宽单向假设,以及lagged WQS (Gennings et al. (2020)),它处理随时间变化的暴露混合物。

参考:

https://www.healthandenvironment.org/assets/images/Gennigs_Presentation_5-20-19.pdf
Renzetti S, Gennings C, Curtin P C. gWQS: an R package for linear and generalized weighted quantile sum (WQS) regression[J]. J Stat Softw, 2019: 1-9.

欢迎关注公众号:聊无的学习笔记文章来源地址https://www.toymoban.com/news/detail-791083.html

到了这里,关于环境混合物总体效应:加权分位数和回归(WQS)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (学习笔记)地理加权回归(GWR)、多尺度地理加权回归(MGWR)原理与软件实现

    1回归 1.1回归 回归分析是最常用的社会科学统计方法。回归用于 评估两个或更多要素属性之间的关系 。通过回归分析,我们可以对空间关系进行建模、检查和探究;回归分析还可以帮助解释所观测到的空间模式背后的诸多因素,例如为什么有些地区会持续发生年轻人早逝或

    2023年04月08日
    浏览(28)
  • 泊松回归和地理加权泊松回归

    01 泊松回归 泊松回归(Poisson Regression)是一种广义线性模型,用于建立离散型响应变量(计数数据)与一个或多个预测变量之间的关系。它以法国数学家西蒙·丹尼·泊松(Siméon Denis Poisson)的名字命名,适用于计算“事件发生次数”的概率,比如交通事故发生次数、产品缺

    2024年02月11日
    浏览(39)
  • Numpy中统计函数的讲解:平均值、中位数、标准差、方差、最大最小值、求和、加权平均数

    目录 统计函数: Numpy 能方便地求出统计学常见的描述性统计量 一:Numpy中统计函数--平均值 求平均值 二:Numpy中统计函数--中位数 中位数 np.median 平均数和中位数的区别 三:Numpy中统计函数--标准差 求标准差ndarray.std() 四:Numpy中统计函数--方差 求方差ndarray.var() 标准差和方差

    2024年02月06日
    浏览(37)
  • R语言 线性混合效应模型实战案例

    介绍 最近我们被客户要求撰写关于性混合效应模型的研究报告,包括一些图形和统计输出。首先,请注意,围绕多层次模型的术语有很大的不一致性。例如,多层次模型本身可能被称为分层线性模型、随机效应模型、多层次模型、随机截距模型、随机斜率模型或集合模型。根

    2023年04月10日
    浏览(29)
  • SPSS----加权回归分析你了解多少(随笔笔记)

    spss统计分析书中这样写到: 在线性回归模型中,有一个同方差性假设,就是要求所有观测对回归模型的变异具有相同的贡献,以此为基础的回归方法称之为普通最小二乘法(OLS)。当因某些观测的变异较其他观测大而导致样本的方差不等时,就不能使用OLS方法了。如果观测的变

    2024年02月05日
    浏览(32)
  • R语言混合效应(多水平/层次/嵌套)模型及贝叶斯实现技术应用

    回归分析是科学研究中十分重要的数据分析工具。随着现代统计技术发展,回归分析方法得到了极大改进。混合效应模型(Mixed effect model),即多水平模(Multilevel model)/分层模型(Hierarchical Model)/嵌套模型(Nested Model),无疑是现代回归分析中应用最为广泛的统计模型,代表了现

    2023年04月22日
    浏览(36)
  • 调节效应检验(一):线性回归分析

    根据侯杰泰 等(2004)的研究,如果变量Y和变量X的关系是变量M的函数 (Y=f(X,M)+e) ,即Y和X的关系受到第三个变量M的影响,则称M为调节变量。调节变量可以是定性的(如性别、种族、学校类型等),也可以是定量的(如年龄、受教育程度等), 它影响因变量和自变量之间关系的强弱

    2024年02月04日
    浏览(27)
  • R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析

    在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力。以地理加权回归为基础的一系列方法:经典地理加权回归,半参数地理加权回归、多尺度地理加权回

    2024年02月14日
    浏览(30)
  • stata回归?固定效应模型(组内变换OR LSDV最小二乘法)

    面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图。 笔记内容还参考了陈强教授的《高级计量经济学及Stata应用(第二版)》 面板数据(panel data或longitudinaldata),指的是在一段时间内跟踪同一组个体

    2024年02月02日
    浏览(30)
  • 「ML 实践篇」回归系统:房价中位数预测

    目的 :使用加州人口普查的数据建立加州的房价模型,从而根据所有其他指标,预测任意区域的房价中位数; 机器学习项目清单 框出问题并看整体; 获取数据; 研究数据以获得深刻见解; 准备数据以便将潜在的数据模式提供给机器学习算法; 探索不同模型,并列出最佳模

    2023年04月08日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包