基于R做宏基因组的进化树ClusterTree分析

这篇具有很好参考价值的文章主要介绍了基于R做宏基因组的进化树ClusterTree分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

写在前面

同上一篇的PCoA分析,这个也是基于公司结果基础上的再次分析,重新挑选样本,在公司结果提供的csv结果表上进行删减,本地重新分析作图

步骤

表格预处理

  • 在公司给的ClusterTree的原始表格数据里选取要保留的样本,同样保存为逗号分隔的csv文件

代码演示

无色版
install.packages('vegan')
install.packages('dendextend')
install.packages('circlize')

data <- read.table('F:\\Analysis\\RA_Sanhe cow\\Microgenome\\Cluster_Tree\\table.g10.cluster.csv', header=T, sep = ',', check.names=FALSE)
rownames(data)=data[,1]
data=data[,-1]
library(vegan)
data=decostand(data, MARGIN=2, "total")
otu=t(data)
otu_dist=vegdist(otu, method="bray", diag=TRUE, upper=TRUE, p=2)
#进行聚类分析并作图
hclust=hclust(otu_dist, method="average")
plot(hclust)

library(dendextend)
library(circlize)
tree=as.dendrogram(hclust)
par(mfrow=c(2,2), mar=c(3,3,1,5), cex=0.7)
plot(tree, horiz=TRUE, main="UPGMA Tree")
#隐藏平均距离小于0.5的对象(类群)
plot(cut(tree, h=0.5)$upper, horiz=TRUE, main="Samples with distance higher than 0.5")
#在上一步基础上筛选第二个分类簇
plot(cut(tree, h=0.5)$upper[[2]], horiz=TRUE, main="Second branch samples with distance higher than 0.5")
circlize_dendrogram(tree)

基于R做宏基因组的进化树ClusterTree分析,R语言,生物信息,数据处理,r语言,开发语言

上色版
##完整代码
data <- read.table('F:\\Analysis\\RA_Sanhe cow\\Microgenome\\Cluster_Tree\\Demo_ClusterTree.csv', header=T, sep = ',', check.names=FALSE)
rownames(data)=data[,1]
data=data[,-1]
library(vegan)
data=decostand(data, MARGIN=2, "total")
otu=t(data)
otu_dist=vegdist(otu, method="bray", diag=TRUE, upper=TRUE, p=2)
#进行聚类分析并作图
hclust=hclust(otu_dist, method="average")
library(dendextend)
library(RColorBrewer)
hcd=as.dendrogram(hclust)
labelColors=brewer.pal(n=4, name="Set1")
#聚类分组,预设聚类簇数目为4
clusMember=cutree(hcd, 4)
#自定义函数,根据聚类结果进行着色,4 种颜色
colLab=function(n) {
  if (is.leaf(n)) {
    a=attributes(n)
    labCol=labelColors[clusMember[which(names(clusMember)==a$label)]]
    attr(n, "nodePar")=c(a$nodePar, lab.col=labCol)
  }
  n
}
clusDendro=dendrapply(hcd, colLab)
plot(clusDendro, main ="UPGMA Tree", type="rectangle", horiz=TRUE)
plot(clusDendro, main ="UPGMA Tree", type="triangle")

基于R做宏基因组的进化树ClusterTree分析,R语言,生物信息,数据处理,r语言,开发语言文章来源地址https://www.toymoban.com/news/detail-643097.html

到了这里,关于基于R做宏基因组的进化树ClusterTree分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • liftOver 不同版本基因组文件相互转化

    大家好,我是邓飞。前一段时间有小伙伴在星球提问:想将不同版本的SNP数据合并,不想重新call snp,想把绵羊的V2和V4版本的数据合并,具体来说,是V2转为V4然后与V4合并。 我建议用 liftOver 软件进行处理,并许诺写篇博客介绍一下。 还有小伙伴想把1.2的参考基因组,变为

    2024年02月07日
    浏览(31)
  • 生信步骤|原核生物基因组注释--Prokka

    全基因组注释是鉴定生物基因组特征的过程。Prokka是一个适用于原核生物基因组注释工具,可以注释细菌,古菌和病毒基因组。Prokka在预测基因组CDS区域时采用了多种数据库,内置的三个核心数据库包括ISfinder数据库,NCBI细菌抗性数据库和UniprotKB数据库。 此外,prokka内置基因

    2024年02月04日
    浏览(81)
  • 易基因:人类大脑的单细胞DNA甲基化和3D基因组结构|Science

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 高通通量表观基因组分析技术可用于阐明大脑中细胞复杂性的基因调控程序。5\\\'-甲基胞嘧啶 (5mCs)是哺乳动物基因组中最常见的修饰碱基,大多数5mCs发生在胞嘧啶-鸟嘌呤二核苷酸(CpGs)上。CG差异甲基化区

    2024年04月17日
    浏览(37)
  • 基因组组装: 3D-DNA 染色体挂载

    本文将介绍基因组组装过程中,如何利用 HiC 测序数据,进行染色体级别基因组的组装。该过程主要利用 Juicer [1] 和 3D-DNA [2] 进行,有关第一步 Juicer 的过程,已经下方的文章中介绍了,本文主要介绍第二步: 3D-DNA 的安装与使用。 目前基因组组装的主要流程是,利用二代或者

    2024年02月13日
    浏览(33)
  • MetaHipMer2 - MHM2超算系统宏基因组短读长序列组装神器的介绍和使用

    berkeleylab / mhm2 / Downloads — Bitbucket 文章: Terabase-scale metagenome coassembly with MetaHipMer | Scientific Reports MetaHipMer (MHM) 是一种从头开始的宏基因组短读组装器。这是版本 2 (MHM2),完全用 UPC++、CUDA 和 HIP 编写,可以在单服务器和多节点超级计算机上高效运行,可以扩展以共同组装 te

    2024年01月19日
    浏览(40)
  • 生存分析 存活分析 survival analysis 基因的 高低表达生存分析 按照基因表达量的高低做生存分析 批量基因批量生存分析 做生存分析,已经不需要正常样本的表达矩阵了,所以需要过滤

    survival analysis only for patients with tumor. 数据准备: 1.phe 临床信息 dataframe格式 。行名顺序要与表达矩阵样本顺序一致 , #####至少包括是否死亡event 生存时间time 以及分类标准(基因高低 肿瘤分期 是否转移等) 2.表达矩阵 临床信息 meta信息 给感兴趣的指标进行赋值 画另外一个基

    2024年02月06日
    浏览(76)
  • 实战 lasso特征筛选得到5个基因 cox单因素分析得到很多有意义的基因 如何lasso筛选特征基因 然后再进行cox多因素分析

    二、为什么需要用 Lasso + Cox 生存分析模式 一般我们在筛选影响患者预后的变量时,通常先进行单因素Cox分析筛选出关联的变量,然后构建多因素模型进一步确认变量与生存的关联是否独立。 但这种做法没有考虑到 变量之间多重共线性的影响 ,有时候我们甚至会发现单因素

    2024年02月01日
    浏览(38)
  • 表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

    使用场景 1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为 guilt of association,协同犯罪 。 2.我们的注释方法依赖于TCGA大样本,既然他可以注释基因,那么任何跟肿瘤相关的基因都可以被注释,

    2024年02月01日
    浏览(56)
  • Monocle2拟时基因富集分析

    ****Monocle2全部往期精彩系列 : 1、群成员专享:Monocle2更新(就是重新梳理一下) 2、一键跑完monocle2? 3、ggplot2个性可视化monocle2结果 4、ggplot修饰monocle2拟时热图:一众问题全部解决 5、Monocle2终极修改版 6、单细胞拟时分析:基因及通路随拟时表达变化趋势 Monocle2拟时分析及

    2024年02月08日
    浏览(32)
  • GEO生信数据挖掘(七)差异基因分析

    上节,我们使用结核病基因数据,做了一个数据预处理的实操案例。例子中结核类型,包括结核,潜隐进展,对照和潜隐,四个类别。本节延续上个数据,进行了差异分析。 加载数据 构建差异比较矩阵 计算差异基因指标 #绘制前40个基因在不同样本之间的热图 差异基因分析

    2024年02月07日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包