GSEA富集分析结果详解-Toy模板网

这篇具有很好参考价值的文章主要介绍了GSEA富集分析结果详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1. GSEA富集分析原理图

GSEA富集分析结果详解,生物信息,R,GSEA,生物信息

2. GSEA富集分析过程

1. 计算富集分数（ES）

富集分数：S 反应基因集（比如某个通路内的基因集）成员 s 在排序基因集 L（比如根据 logFC 排序的差异基因集，默认降序，所以上调基因在顶端）的两端富集的程度。富集得分 ES 最后定义为最大的peak值。正值ES表示基因集 S 在基因集 L 的顶部富集，负值ES表示基因集 S 在基因集 L 的底部富集。

2. 估计富集分数的显著性水平

因为每个基因集的大小不同，而 ES 又和基因集大小有关，因此需要对其进行 normalization。为了检验每个基因集的 NES 是否显著，将总基因集 L 随机打乱排列一定次数，每次都计算每个基因集的 NES(ES)，得到每个基因集的 NES 在随机排序情况下的理论分布，从而计算其 p 值。

3. 矫正多重假设检验

FDR 则是对 p 值进行 BH 校正之后的 p 值。

3. GSEA富集分析结果

1. 富集结果表格解读

ID：通路名
Description：通路描述信息
setSize：该通路中包含表达数据集文中的基因数目（经过条件筛选后的值）
enrichmentScore：富集分数
NES：标准化后的富集分数
pvalue：是对 ES 的统计学分析，用来表征富集结果的可信度
p.adjust：是多重假设检验校正之后的 p-value
qvalues：是多重假设检验（FDR法）校正之后的 p-value，即对NES可能存在的假阳性结果的概率估计。GSEA 对显著性的定义为 p-value<5%，FDR q-val<25%
rank：当 ES 最大时，对应基因所在排序好的基因列表中所处的位置
leading_edge：tags 表示核心基因占该通路基因集的百分比；list 表示核心基因占所有基因的百分比；signal，将前 2 项统计值结合在一起计算出的富集信号强度
core_enrichment：核心富集基因集

2. 富集可视化图解读

GSEA富集分析结果详解,生物信息,R,GSEA,生物信息

富集图一共分为上中下 3 部分。如A_VS_B差异分析：

第一部分 ES 折线图：显示了当分析沿着排序基因集按排序计算时，ES 值在计算到每个位置时的展示。最高峰处的ES得分 (垂直距离 0.0 最远)便是基因集的 ES 值。
第二部分 hits 图，俗称条形码图，用线条或者 hit 标记了通路基因集（基因组所有）中成员出现在基因排序列表中的位置。如果基因集里的基因集中在所有基因的前部分，就是在A组里面富集，如果集中在后面部分，就是在B组里面富集。leading edge subset 就是（0,0）到绿色曲线峰值 ES 出现对应的这部分基因（x轴0到虚线那部分）。所谓 Leading-edge subset，就是对富集得分贡献最大的基因成员。如果ES得分都是正值（如上图所示），那么Leading-edge subset就在峰值ES的左侧，反之则在右侧（底部富集 = A/B 下调表达 = B 组高表达）。那么根据本图我们很容易看出，该通路在 A 组高表达。
第三部分是排序后所有基因 rank 值的分布，热图红色部分对应的基因在 A 组高表达，蓝色部分对应的基因在 B 组高表达，每个基因对应的信噪比（Signal2noise，前面选择的排序值计算方式）以灰色面积图展示。

参考：https://zhuanlan.zhihu.com/p/582401881文章来源地址https://www.toymoban.com/news/detail-635753.html

到了这里，关于GSEA富集分析结果详解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！