GWAS分析中的GO和KEGG富集分析

这篇具有很好参考价值的文章主要介绍了GWAS分析中的GO和KEGG富集分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

上一次,我们介绍如何根据显著性snp,使用bedtools根据上下游距离,根据gff文件注释基因。

这一次,介绍一下如何根据注释的基因,进行富集分析,主要是看一下GWAS定位的基因有没有某一个趋势,也算是一种验证的方法。比如籽粒大小找到的30个候选基因,如果都与籽粒发育相关的生化途径一致,那就说明找到的都是相关的基因。

之前用于注释基因需要的gff文件:

GWAS分析中的GO和KEGG富集分析
上面红框中就是基因的名字,这里,我们已经注释到的基因,形成一个txt文件,内容如下:
GWAS分析中的GO和KEGG富集分析

1. R包依赖

下面先载入需要的R包,如果没有安装,需要安装一下:

  library(clusterProfiler)
  library(enrichplot)
  library(topGO)
  library(Rgraphviz)
  library(openxlsx)
  library(ggplot2)

2. 下载数据库

到Bioconductor中(https://www.bioconductor.org/),检索该物种的数据库:

GWAS分析中的GO和KEGG富集分析
常见的物种数据库如下:直接在Bioconductor中安装OrgDB的名称就行了。
GWAS分析中的GO和KEGG富集分析
这里,我们用的是水稻的数据库,名称为:org.Osativa.eg.db

3. 载入数据库和读取基因名文件

载入数据库

library(org.Osativa.eg.db)
db <- org.Osativa.eg.db 
organism <- "dosa" # 物种的名称

读取基因型文件

geneid = read.csv("gene_total.txt",header = F)
head(geneid)

GWAS分析中的GO和KEGG富集分析

4. 将ID匹配GID

将geneID,替换为数据库中的GID

map_id = AnnotationDbi::select(db, keys = geneid, columns=c("GID"), keytype = "RAP")
head(map_id)

GWAS分析中的GO和KEGG富集分析

5. 对基因列表进行GO注释

GO注释包括:

  • MF注释
  • CC注释
  • BP注释

MF注释:

go_MF =enrichGO(map_id$GID, 
                 OrgDb=db,
                 keyType = "GID",
                 ont="MF", 
                 pvalueCutoff=1,
                 qvalueCutoff=1, 
                 pAdjustMethod="none")
write.xlsx(go_MF,"go_MF.xlsx")
dotplot(go_MF,color="pvalue")
ggsave("go_MF_dotplot.pdf",width=12,height=6)

结果文件:
GWAS分析中的GO和KEGG富集分析
GWAS分析中的GO和KEGG富集分析
同样的,CC和BP的GO注释,将ont后面的改为CC和BP即可。

CC的GO注释:

## CC
go_CC =enrichGO(map_id$GID, 
                OrgDb=db,
                keyType = "GID",
                ont="CC", 
                pvalueCutoff=1,
                qvalueCutoff=1, 
                pAdjustMethod="none")
write.xlsx(go_CC,"go_CC.xlsx")
dotplot(go_CC,color="pvalue")
ggsave("go_CC_dotplot.pdf",width=12,height=6)

GWAS分析中的GO和KEGG富集分析
GWAS分析中的GO和KEGG富集分析

BP的GO注释:

## BP
go_BP =enrichGO(map_id$GID, 
                 OrgDb=db,
                 keyType = "GID",
                 ont="BP", 
                 pvalueCutoff=1,
                 qvalueCutoff=1, 
                 pAdjustMethod="none")
write.xlsx(go_BP,"go_BP.xlsx")
dotplot(go_BP,color="pvalue")
ggsave("go_BP_dotplot.pdf",width=12,height=6)

GWAS分析中的GO和KEGG富集分析
GWAS分析中的GO和KEGG富集分析
其它类型的图:

## 其它类型的图:
barplot(go_BP)
heatplot(go_BP)

GWAS分析中的GO和KEGG富集分析

GWAS分析中的GO和KEGG富集分析

6. KEGG富集分析

把基因型的ID后面加上“-01”,并且把g变为t

rap_id <- paste0(geneid, "-01")
rap_id <- gsub("g","t",rap_id)
head(rap_id)

GWAS分析中的GO和KEGG富集分析

富集分析:

geneid = read.csv("a1.txt",header = F)$V1
rap_id <- paste0(geneid, "-01")
rap_id <- gsub("g","t",rap_id)
head(rap_id)
kegg <- enrichKEGG(
  gene = rap_id,  #基因列表文件中的基因名称
  keyType = 'kegg',  
  organism = 'dosa', 
  pAdjustMethod = 'fdr',  #指定 p 值校正方法
  pvalueCutoff = 1,  
  qvalueCutoff = 1)  

运行日志:
GWAS分析中的GO和KEGG富集分析
作图:

barplot(kegg)
dotplot(kegg)

GWAS分析中的GO和KEGG富集分析

GWAS分析中的GO和KEGG富集分析
GWAS分析中的GO和KEGG富集分析文章来源地址https://www.toymoban.com/news/detail-452677.html

到了这里,关于GWAS分析中的GO和KEGG富集分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • KEGG更新后富集分析的问题,包括下载包以及enrichKEGG和可视化

    运行以下代码出现报错,探究原因: 出现以下报错: 进行解决,查到第一个解决方法是把阈值降低,即将 pvalueCutoff = 0.01,qvalueCutoff = 0.05, 修改为: pvalueCutoff = 0.2,qvalueCutoff = 0.2, 但是依旧有以上报错,不断尝试网上的方法依然有问题,发现还是clusterProfiler包的问题,昨天在进

    2024年02月10日
    浏览(35)
  • 生信学习之通路富集一(GO分析)

    富集分析 (Enrichment Analysis)是一种广泛应用于生物信息学研究的统计方法,主要用于检验一个基因集合中某些功能或特征的富集程度。富集分析的主要目的是从大量基因数据中找出有生物学意义的模式和功能。根据分析的目标和方法,富集分析可以分为以下几种类型: 基因

    2024年02月09日
    浏览(34)
  • GO富集绘图绘制方法,零基础教程,替换数据直接作图,完成版R语言脚本

    本期分享一个快速绘制GO富集结果图的方法,主要使用R语言tidyverse包,只需导入数据即可一步出图,可以自定义显示的数目、颜色、筛选参数, 从此以后绘制GO富集图只需1秒 。 下面是一个GO富集分析的结果数据表: ID:表示具体的GO条目 Description:GO条目的描述 RatioF:分子是

    2024年02月12日
    浏览(44)
  • 渐进式学习:如何用R和GO富集可视化捕捉生命的关键信号?

    生命科学中的数据分析和可视化是一个具有挑战性的领域。随着技术和理论的不断发展,研究人员需要处理越来越复杂和庞大的数据集,以研究生物体在不同尺度上的结构和功能,探索不同生物过程和疾病的机制。在这个领域,GO(Gene Ontology)富集分析已成为一种常见的技术

    2024年02月10日
    浏览(44)
  • GSEA富集分析结果详解

    1. GSEA富集分析原理图 2. GSEA富集分析过程 1. 计算富集分数(ES) 富集分数:S 反应基因集(比如某个通路内的基因集)成员 s 在排序基因集 L(比如根据 logFC 排序的差异基因集,默认降序,所以上调基因在顶端)的两端富集的程度。富集得分 ES 最后定义为最大的peak值。正值

    2024年02月13日
    浏览(39)
  • KEGG 通路如何找

     链接: KEGG: Kyoto Encyclopedia of Genes and Genomes 学习链接: 科研干货|KEGG信号通路数据库轻松上手_哔哩哔哩_bilibili   示例:我要找人的结直肠癌信号通路: 1.   2.  3.  4.    over  

    2024年02月15日
    浏览(30)
  • Monocle2拟时基因富集分析

    ****Monocle2全部往期精彩系列 : 1、群成员专享:Monocle2更新(就是重新梳理一下) 2、一键跑完monocle2? 3、ggplot2个性可视化monocle2结果 4、ggplot修饰monocle2拟时热图:一众问题全部解决 5、Monocle2终极修改版 6、单细胞拟时分析:基因及通路随拟时表达变化趋势 Monocle2拟时分析及

    2024年02月08日
    浏览(32)
  • 使用R语言绘制富集条形图,轻松分析基因表达数据

    富集分析(enrichment analysis)是一种生物信息学方法,它可以帮助我们识别基因或其他的生物实体在某个特定的类别中过度表示的趋势。通俗来说,富集分析通过将基因分类到特定的集合中,然后根据基因在集合中的分布和总体分布的比较,来寻找哪些集合与特定的生物过程、

    2024年02月11日
    浏览(44)
  • 【生信简单文章复现】差异分析+WGCNA+功能富集分析+PPI网络+Hub基因验证

    目录 WGCNA简介 两个假设 一般步骤  数据准备 差异分析 参数解释 Limma包差异分析  WGCNA分析 构建基因共表达网络 模块与临床特征的相关性分析 GO富集分析 KEGG富集分析 PPI分析 验证关键基因   写在最后​​​​​​​ WGCNA简介 Weighted Gene Co-Expression Network Analysis,加权基因共

    2024年01月19日
    浏览(43)
  • Go中的有限状态机FSM的详细介绍

    1.1 有限状态机的定义 有限状态机(Finite State Machine,FSM)是一种数学模型,用于描述系统在不同状态下的行为和转移条件。 状态机有三个组成部分: 状态(State)、事件(Event)、动作(Action) ,事件(转移条件)触发状态的转移和动作的执行。动作的执行不是必须的,可

    2023年04月24日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包