表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

这篇具有很好参考价值的文章主要介绍了表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

使用场景

  • 1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为guilt of association,协同犯罪

  • 2.我们的注释方法依赖于TCGA大样本,既然他可以注释基因,那么任何跟肿瘤相关的基因都可以被注释,包括长链非编码RNA

下面操作开始:

1.加载已经整理好的癌症数据

 
  1. load(file = "exprSet_arrange.Rdata")

  2. exprSet[1:3,1:3]

这个数据依然是行是样本,列是基因。 

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

2.批量相关性分析

将第一行目的基因跟其他行的编码基因批量做相关性分析,得到相关性系数以及p值 需要大概30s左右的时间。

 
  1. y <- as.numeric(exprSet[,"PDCD1"])
    
    colnames <- colnames(exprSet)
    
    cor_data_df <- data.frame(colnames)
    
    for (i in 1:length(colnames)){
    
     test <- cor.test(as.numeric(exprSet[,i]),y,type="spearman")
    
     cor_data_df[i,2] <- test$estimate
    
     cor_data_df[i,3] <- test$p.value
    
    }
    
    names(cor_data_df) <- c("symbol","correlation","pvalue")

查看这个数据结构

 
  1. head(cor_data_df)

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

3.筛选最相关的基因

筛选p值小于0.05,按照相关性系数绝对值选前500个的基因, 数量可以自己定

 
  1. library(dplyr)

  2. library(tidyr)

  3. cor_data_sig <- cor_data_df %>%

  4.  filter(pvalue < 0.05) %>%

  5.  arrange(desc(abs(correlation)))%>%

  6.  dplyr::slice(1:500)

4.随机选取正的和负的分别作图验证

用到的方法在以前的图有毒系列里面 图有毒系列之二

正相关的选取IL2RG

 
  1. library(ggstatsplot)

  2. ggscatterstats(data = exprSet,

  3.               y = PDCD1,

  4.               x = IL2RG,

  5.               centrality.para = "mean",                              

  6.               margins = "both",                                        

  7.               xfill = "#CC79A7",

  8.               yfill = "#009E73",

  9.               marginal.type = "histogram",

  10.               title = "Relationship between PDCD1 and IL2RG")

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

负相关的选取MARK1

 
  1. library(ggstatsplot)

  2. ggscatterstats(data = exprSet,

  3.               y = PDCD1,

  4.               x = MARK1,

  5.               centrality.para = "mean",                              

  6.               margins = "both",                                        

  7.               xfill = "#CC79A7",

  8.               yfill = "#009E73",

  9.               marginal.type = "histogram",

  10.               title = "Relationship between PDCD1 and IL2RG")

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

我们还可以用cowplot拼图

 
  1. library(cowplot)
    
    p1 <- ggscatterstats(data = exprSet,
    
                  y = PDCD1,
    
                  x = IL2RG,
    
                  centrality.para = "mean",                              
    
                  margins = "both",                                        
    
                  xfill = "#CC79A7",
    
                  yfill = "#009E73",
    
                  marginal.type = "histogram",
    
                  title = "Relationship between PDCD1 and IL2RG")
    
    
    
    p2 <- ggscatterstats(data = exprSet,
    
                  y = PDCD1,
    
                  x = MARK1,
    
                  centrality.para = "mean",                              
    
                  margins = "both",                                        
    
                  xfill = "#CC79A7",
    
                  yfill = "#009E73",
    
                  marginal.type = "histogram",
    
                  title = "Relationship between PDCD1 and IL2RG")
    
    plot_grid(p1,p2,nrow = 1,labels = LETTERS[1:2])

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

setwd("/home/data/t040413/ipf/gse135893_20_PF_10_control_scRNAseq")
getwd()

#install.packages("ggside")  #.libPaths(c("/home/data/t040413/R/yll/usr/local/lib/R/site-library",  "/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2", "/usr/local/lib/R/library"))

.libPaths(c("/home/data/t040413/R/yll/usr/local/lib/R/site-library",  "/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2", "/usr/local/lib/R/library"))
library(ggstatsplot)

load("/home/data/t040413/ipf/gse135893_20_PF_10_control_scRNAseq/mydata_for_gpx3_ecm_association.rds")

head(mydata)

ggscatterstats(data =mydata,
               y = ECM_Score,
               x = GPX3,
               centrality.para = "mean", 
               margins = "both",
               xfill = "#CC79A7",
               yfill = "#009E73",
               marginal.type = "histogram",
               title = "Relationship between GPX3 and ECM_Score from fibroblasts in GSE135895")
.libPaths(c("/home/data/refdir/Rlib",
            "/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2",
            "/usr/local/lib/R/library"))

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

5.下面进行聚类分析

既然确定了相关性是正确的,那么我们用我们筛选的基因进行富集分析就可以反推这个基因的功能

 
  1. library(clusterProfiler)

  2. #获得基因列表

  3. library(stringr)

  4. gene <- str_trim(cor_data_sig$symbol,'both')

  5. #基因名称转换,返回的是数据框

  6. gene = bitr(gene, fromType="SYMBOL", toType="ENTREZID", OrgDb="org.Hs.eg.db")

  7. go <- enrichGO(gene = gene$ENTREZID, OrgDb = "org.Hs.eg.db", ont="all")

这里因为是计算的所有GO分析的三个分类,所以可以合并作图

这是条形图

 
  1. barplot(go, split="ONTOLOGY")+ facet_grid(ONTOLOGY~., scale="free")

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

 这是气泡图

 
  1. dotplot(go, split="ONTOLOGY")+ facet_grid(ONTOLOGY~., scale="free")

表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

这时候,我们能推断PDCD1这个基因主要参与T细胞激活,细胞因子受体活性调剂等功能,大致跟她本身的功能是一致的。 

这种方法,即使是非编码基因也可以注释出来,想到长链非编码基因的数量,真是钱途无量。

 表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

欢迎关注微信:生信小博士 文章来源地址https://www.toymoban.com/news/detail-427928.html

到了这里,关于表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 常见的相关性分析

    方差分析和相关性分析都是描述特征之间的关系的统计方法,但它们关注的方面略有不同。 方差分析主要用于研究一个或多个自变量对因变量的影响,即研究因素之间的差异性。通过比较不同组之间的方差,可以确定哪些因素对结果变量的影响比较重要,以及不同组之间的显

    2024年02月11日
    浏览(38)
  • 【python】求多变量/样本(矩阵)之间的相关性系数

    创作日志: Pearson或Spearson代表的是两个变量之间的相关性,因此一般输入是两个向量(vector),那么当我们有多个变量时,怎样计算他们两两之间的相关性系数呢?得到的correlation matrix各元素代表的又是什么意思呢? 举例: 矩阵A有两个样本:a1 与 a2,矩阵B有两个样本:b1 与

    2024年02月06日
    浏览(39)
  • 数学建模:相关性分析

    🔆 文章首发于我的个人博客:欢迎大佬们来逛逛 Pearson Spearman Kendall tua-b t检验(t-test)临界值表-t检验表.xls T检验代码: myTtest005.m 相关性分析及SPSS软件操作.pdf

    2024年02月09日
    浏览(40)
  • 相关性分析和热图绘制

    一、什么是相关性分析? 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。在组学测序(如转录组)中需设置多个生物学重复,而对多个生物学重复

    2024年02月10日
    浏览(43)
  • Pearson相关性分析& plot绘图(相关性系数柱状图、绘制非空值数量柱状图)

    Pearson相关性分析是一种用于检测两个变量之间线性关系强度的统计方法,其结果介于-1和1之间。一个相关系数为1表示完全正相关,-1表示完全负相关,0则表示没有线性关系。 Pearson相关性分析假设数据来自正态分布,并且对异常值敏感。

    2024年02月09日
    浏览(38)
  • 数学建模-相关性分析(Matlab)

     注意:代码文件仅供参考,一定不要直接用于自己的数模论文中 国赛对于论文的查重要求非常严格,代码雷同也算作抄袭 如何修改代码避免查重的方法:https://www.bilibili.com/video/av59423231   //清风数学建模 连续数据、正态分布、线性关系三者同时满足优先用。 一般处理这种

    2024年02月07日
    浏览(45)
  • Python进行数据相关性分析实战

    平时在做数据分析的时候,会要对特征进行相关性分析,分析某些特征之间是否存在相关性。本文将通过一个实例来对数据进行相关性分析与展示。 本次分析的是企业合作研发模式效果分析,企业的合作研发大致分为 企企合作、企学合作、企研合作、企学研合作,也就是企

    2024年02月10日
    浏览(37)
  • FigDraw 12. SCI 文章绘图之相关性矩阵图(Correlation Matrix)

    桓峰基因公众号推出基于R语言绘图教程并配有视频在线教程,目前整理出来的教程目录如下: FigDraw 1. SCI 文章的灵魂 之 简约优雅的图表配色 FigDraw 2. SCI 文章绘图必备 R 语言基础 FigDraw 3. SCI 文章绘图必备 R 数据转换 FigDraw 4. SCI 文章绘图之散点图 (Scatter) FigDraw 5. SCI 文章绘

    2023年04月08日
    浏览(49)
  • spss数据分析--相关性分析与酷炫图

    相关性分析与酷炫图 今天就来说说R语言怎么进行相关性分析。 首先,安装两个R包,其中“corrplot”包就能画出好多酷炫的相关性矩阵图。“pheatmap”包是用来画热力图的。   我们调用R里自带的数据集,今天调用的这个是关于汽车道路测试的各项指标数据,名叫mtcars。这个数

    2024年02月13日
    浏览(47)
  • Pearson correlation皮尔逊相关性分析

    在参数检验的相关性分析方法主要是皮尔逊相关(Pearson correlation)。既然是参数检验方法,肯定是有一些前提条件。皮尔逊相关的前提是必须满足以下几个条件: 变量是连续变量; 比较的两个变量必须来源于同一个总体; 没有异常值; 两个变量都符合正态分布。 正态分布

    2024年02月15日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包