单细胞测序并不一定需要harmony去除批次效应

这篇具有很好参考价值的文章主要介绍了单细胞测序并不一定需要harmony去除批次效应。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大家好,今天我们分享的是单细胞的学习教程https://www.singlecellworkshop.com/analysis-tutorial.html  教程的作者使用了四个样本,但是没有使用harmony或者其他方法去整合 去除批次效应。


主要内容:

  • SCTransform流程代码及结果

  • harmony流程代码及结果

  • seurat单样本标准流程代码及结果

  • 三种方法结果比较

是不是这四个样本就不需要去批次效应呢?接下来我们探索一下

1 首先是把教程的代码跑一遍

# load Seurat package 
library(Seurat)

dir.create("~/gzh/harmony_sct",recursive = TRUE)
setwd("~/gzh/harmony_sct/")
getwd()
list.files()


# 1 不去除批次效应,教程的步骤----
{
  pfc2.data <- Read10X(data.dir = "raw-data/pfc-sample2")
  pfc3.data <- Read10X(data.dir = "raw-data/pfc-sample3")
  pfc5.data <- Read10X(data.dir = "raw-data/pfc-sample5")
  pfc7.data <- Read10X(data.dir = "raw-data/pfc-sample7")
  
  # create a new Seurat object for each sample
  # min.cells = 3, only genes detected in at least 3 cells will be included
  # min.features = 200, only cells with at least 200 genes detected will be included
  
  pfc2 <- CreateSeuratObject(counts = pfc2.data, project = "pfc-demo", min.cells = 3, min.features = 200)
  pfc3 <- CreateSeuratObject(counts = pfc3.data, project = "pfc-demo", min.cells = 3, min.features = 200)
  pfc5 <- CreateSeuratObject(counts = pfc5.data, project = "pfc-demo", min.cells = 3, min.features = 200)
  pfc7 <- CreateSeuratObject(counts = pfc7.data, project = "pfc-demo", min.cells = 3, min.features = 200)
  
  pfc2
  
  # remove the raw data to save processing space
  rm(pfc2.data, pfc3.data, pfc5.data, pfc7.data)
  
  # inspect the metadata for one of our objects using the 'head' function
  head(pfc2@meta.data)
  
  
  pfc2@meta.data$sample_number <- "2" 
  pfc3@meta.data$sample_number <- "3" 
  pfc5@meta.data$sample_number <- "5" 
  pfc7@meta.data$sample_number <- "7" 
  
  # merge multiple Seurat objects
  pfc <- merge(x = pfc2, y = list(pfc3, pfc5, pfc7))
  
  
  # remove individual objects to save processing space
  rm(pfc2, pfc3, pfc5, pfc7)
  
  
  # inpect our new combined object
  pfc
  # an important metadata slot to add in every experiment is the ratio of mitochondrial genes
  # detected in each cell - this can be used as a proxy for cell quality in most preparations
  pfc[["percent.mt"]] <- PercentageFeatureSet(object = pfc, pattern = "^mt-")
  
  # percent.mt cutoffs typically range from 5-10% depending on the sample
  
  VlnPlot(pfc, features = c("percent.mt"), pt.size=0, y.max=15) 
  
  pfc <- subset(pfc, subset = percent.mt < 5)
  
  
  VlnPlot(pfc, features = c("nFeature_RNA"), pt.size=0, y.max=2000)
  
  pfc <- subset(pfc, subset = nFeature_RNA > 600)
  # inspect our QC metrics again
  VlnPlot(pfc, features = c("nFeature_RNA","nCount_RNA","percent.mt"), pt.size=0)
  
  
  # this may take several minutes to execute, and progress will display in the console
  pfc <- SCTransform(pfc)
  
  
  pfc <- RunPCA(pfc, npcs = 60)
  
  
  pfc <- FindNeighbors(pfc, dims = 1:60) 
  pfc <- FindClusters(pfc, resolution = 0.7)
  pfc <- RunUMAP(pfc, dims = 1:60)
  
  DimPlot(pfc, label=T)
  DimPlot(pfc, group.by="sample_number")
}

DefaultAssay(pfc)
Assays(pfc)

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

我们可以看到就算不去批次效应,结果也挺好的

02

2 然后使用harmony去除批次效应 看看效果


subset_data=pfc

DefaultAssay(subset_data)='RNA'

{
library(dplyr)


DimPlot(subset_data)


subset_data[["percent.mt"]] <- PercentageFeatureSet(subset_data, pattern = "^mt-")
VlnPlot(subset_data, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)


subset_data = subset_data %>%
  Seurat::NormalizeData(verbose = FALSE) %>%  
  FindVariableFeatures(selection.method = "vst", nfeatures = 2000) %>%
  ScaleData(verbose = FALSE) %>%
  RunPCA(npcs = 30, verbose = FALSE)
ElbowPlot(subset_data, ndims = 30)
VlnPlot(subset_data, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)

head(subset_data@meta.data)
library(stringr)
table(str_split(colnames(subset_data),pattern = "_",simplify = TRUE)[,2])
subset_data@meta.data$stim <-paste0('mice',str_split(colnames(subset_data),pattern = "_",simplify = TRUE)[,2])
#table(subset_data$stim)

library('harmony')

subset_data <- subset_data %>% RunHarmony("stim", plot_convergence = TRUE)
harmony_embeddings <- Embeddings(subset_data, 'harmony') 
#######################cluster
dims = 1:30
subset_data <- subset_data %>% 
  RunUMAP(reduction = "harmony", dims = dims) %>% 
  RunTSNE(reduction = "harmony", dims = dims) %>% 
  FindNeighbors(reduction = "harmony", dims = dims)

subset_data=FindClusters(subset_data,resolution =0.7)
DimPlot(subset_data,group)
head(subset_data@meta.data)
  head(pfc@meta.data)
  
  
}

同样的分辨率下对比两次的结果

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

我们发现hamony之后多了两个亚群,但是样本总体分布好像影响并不大。所以我们看下harmony前后,每个亚群中的细胞数量变化

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

总体看上去,harmony前后对大多数亚群影响并不大,且harmony前后有很多亚群多是可以互相重合的。(个人觉得之所以教程作者不去除批次效应是因为他所选的四个样本都是control组)

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

如果想更详细的比较harmony前后的变化,我们可以从细胞命名、差异分析、拟时序分析等等结果来看啦~

那为什么作者只是使用了SCTtransform这个函数就可以?达到这么好的效果,是不是SCTtransform可以去除批次效应?——当然不是,不信你去看官网~

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

3 .不死心的话,我们不使用SCTtransform,也不去除批次效应,只使用seurat标准流程试试

3#3 标准流程-----
head(subset_data@meta.data)
All=CreateSeuratObject(counts = subset_data@assays$RNA@counts,meta.data = subset_data@meta.data)

{
  
  VlnPlot(All, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
  All = All%>%Seurat::NormalizeData(verbose = FALSE) %>%  
    FindVariableFeatures(selection.method = "vst"    ) %>%
    ScaleData(verbose = FALSE)
  All = RunPCA(All, npcs = 30, verbose = FALSE)
  ElbowPlot(All, ndims = 30)
  
  
  
#######################cluster
  All <- All %>% 
    RunUMAP(reduction = "pca", dims = 1:30) %>% 
    RunTSNE(reduction = "pca", dims = 1:30) %>% 
    FindNeighbors(reduction = "pca", dims = 1:30)
  All<-All%>% FindClusters(resolution = 0.7) %>% identity()
  
  DimPlot(All,group.by ='stim' )+ggtitle("standard_pipeline")
  
}
head(All@meta.data)

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

结果看上去也还可以吧


我们对比一下三种方法:

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

肉眼看不出来有多大区别吧

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

有意思的是sctransform和标准流程都能得到17个亚群

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

所以大家觉得我们需要harmnoy去除批次效应吗?

4 结论: 虽然不去批次效应也能拿到很好的结果,个人还是建议使用harmony,你觉得呢?

尽管在某些情况下即使不去除批次效应也能得到看似合理的结果,但这可能是偶然的,并且存在风险。批次效应可能掩盖或模拟出实际的生物信号,导致错误的生物学结论。因此,建议使用诸如Harmony这样的算法来校正批次效应,以提高数据分析的可靠性和准确性。

Harmony是一种用于多组数据整合的算法,它可以在保留生物学变异的同时,减少技术变异,特别是批次效应。通过对数据进行校正,Harmony可以帮助研究者更好地识别真实的生物学差异,而不是由实验条件引起的差异。

如果想更详细的比较harmony前后的变化,我们可以从细胞命名、差异分析、拟时序分析等等结果来看啦~如果大家对这个话题感兴趣我们可以开个直播聊聊~

微信公众号:生信小博士

感谢Jimmy老师的分享,此次推文的灵感来自Jimmy老师

猜你可能感兴趣:seurat个性化细胞注释并把细分亚群放回总群

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

单细胞测序数据分析一定要去除批次效应吗,java,数据库,开发语言

看完记得顺手点个“在看”哦!文章来源地址https://www.toymoban.com/news/detail-779097.html

到了这里,关于单细胞测序并不一定需要harmony去除批次效应的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 单细胞分类和预测任务

    对于 分类 和 预测 任务,在生物信息学领域有一些常用的方法和工具可以使用。以下是一些常见的方法和工具: 1. 机器学习方法: 包括支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)、神经网络(Neural Networks)等。这些方法可以用于分类和预测任务,可以根

    2024年02月13日
    浏览(43)
  • 跟着Cell学单细胞转录组分析(六):细胞比例计算及可视化

    今天接着单细胞文章的内容: 从Cell学单细胞转录组分析(一):开端!!! 跟着Cell学单细胞转录组分析(二):单细胞转录组测序文件的读入及Seurat对象构建 跟着Cell学单细胞转录组分析(三):单细胞转录组数据质控(QC)及合并去除批次效应 跟着Cell学单细胞转录组分析(四):单细胞转

    2023年04月08日
    浏览(46)
  • 单细胞seurat入门—— 从原始数据到表达矩阵

    根据所使用的建库方法,单细胞的RNA序列(也称为读取(reads)或标签(tags))将从转录本的3\\\'端(或5\\\'端)(10X Genomics,CEL-seq2,Drop-seq,inDrops)或全长转录本(Smart-seq)获得。 图片来源: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immu

    2024年02月05日
    浏览(55)
  • 专栏十:10X单细胞的聚类树绘图

    经常在文章中看到对细胞群进行聚类,以证明两个cluster之间的相关性,这里总结两种绘制这种图的方式和代码,当然我觉得这些五颜六色的颜色可能是后期加的,本帖子只总结画树状图的方法 文章Single-cell analyses implicate ascites in remodeling the ecosystems of primary and metastatic tumors

    2024年02月07日
    浏览(64)
  • 基于GPT构建单细胞多组学基础模型

    生成式预训练模型在自然语言处理和计算机视觉等各个领域取得了显著的成功。特别是将大规模多样化的数据集与预训练的Transformer相结合,已经成为开发基础模型的一种有前途的方法。文本由单词组成,细胞可以通过基因进行表征。这种类比启发作者探索细胞和基因生物学

    2024年02月13日
    浏览(50)
  • Seurat | 强烈建议收藏的单细胞分析标准流程(基础质控与过滤)(一)

    作为现在 最火 的 scRNAseq 分析包, Seurat 当之无愧。😘 本期开始我们介绍一下 Seurat 包的用法,先从 基础质控 和 过滤 开始吧。🥳 3.1 读取10X文件 这里我们提供一个转成 gene symbols 的可读文件,如果大家拿到的是 Ensemble ID ,可以用之前介绍的方法进行转换。 3.2 创建Seurat对象

    2024年02月08日
    浏览(59)
  • 易基因:单细胞DNA甲基化与转录组分析揭示猪生发泡卵母细胞成熟的关键调控机制|项目文章

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 在哺乳动物中,窦卵泡内的生发泡(germinal vesicle,GV) 卵母细胞可以保持数月或数年的静止状态。促黄体生成素(luteinizing hormone,LH)激增促进了减数分裂(meiosis)恢复,使卵母细胞获得受精后和早期胚胎发育

    2024年02月14日
    浏览(46)
  • 从单细胞数据分析的最佳实践看R与Python两个阵营的博弈

    R与Python,在生物信息学领域的博弈异常激烈。许多生信分析,两个阵营都发展出了自己的方法,比如单细胞数据分析,R有Seurat,Python就有Scanpy。这些层出不穷的方法不断地吸引着吃瓜群众的眼球,同时也让人患上了选择困难症。 到底谁优谁劣?一时竟难分高下。今天我们就

    2024年01月25日
    浏览(49)
  • 易基因:人类大脑的单细胞DNA甲基化和3D基因组结构|Science

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 高通通量表观基因组分析技术可用于阐明大脑中细胞复杂性的基因调控程序。5\\\'-甲基胞嘧啶 (5mCs)是哺乳动物基因组中最常见的修饰碱基,大多数5mCs发生在胞嘧啶-鸟嘌呤二核苷酸(CpGs)上。CG差异甲基化区

    2024年04月17日
    浏览(37)
  • 您可能并不需要单页应用程序

    前端框架的迅速崛起,如React、Angel、Vue.js、Elm等,使得单页面应用程序(Single Page Application)在网络上无处不在。对于许多开发人员来说,这些已经成为他们“默认”工具集的一部分。当他们开始一个新项目时,他们会使用他们已经知道的工具:后端的REST API和Reaction/Angel/V

    2024年02月13日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包