单细胞注释之坑-通过AddModuleScore注释细胞

这篇具有很好参考价值的文章主要介绍了单细胞注释之坑-通过AddModuleScore注释细胞。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

兜兜转转，小编做单细胞转眼又是半年过去了，单细胞注释真的是一到玄学，一查资料很多自动化单细胞注释的工具横空出世，可是小编试了很多很多，发现还是手动注释更加准确，但是手动如何注释呢？
这里我们需要先找到细胞的marker基因，这里以NKT细胞为例，我们知道NKT有三个经典的marker（CD45,CD3,CD56），我们单个marker注释看看
这里的sce就是我们前面使用seurat创建的对象

FeaturePlot(sce,features = c('PTPRC','CD3D', 'CD3E', 'CD3G', 'NCAM1'),
            pt.size = 0.1,reduction = 'tsne',ncol = 5)

addmodulescore,R语言,r语言,单细胞
从上面的图中可以看出，右上角为T细胞，NKT细胞在哪里呢，我们需要看一下交集的地方

同样是这几个marker，我们使用该包自带的AddModuleScore进行计算，同时绘制多个marker的TSNE图

NKT_gene_list <- list(c('PTPRC','CD3D', 'CD3E', 'CD3G', 'NCAM1'))
sce <- AddModuleScore(object = sce, features = NKT_gene_list, name = "cell")
FeaturePlot(object = sce, features = "cell1",reduction='tsne',
                    cols = c('grey','red'))+
  ggtitle('NKT cell \n CD45(PTPRC), CD3(CD3D, CD3E,CD3G), CD56(NCAM1)')

addmodulescore,R语言,r语言,单细胞
这里指定的NKT在右上角

看到这里突然不知道说啥了，小编查了一下AddModuleScore的原理，原来AddModuleScore是通过特定的方法通过这几个marker计算的评分，（其实就是这几个基因的平均表达值）对于Bulk RNA-seq的数据当然没有什么问题，但是对于单细胞来说，他是一个很大的稀疏矩阵，包含了大量的0，在取平均的时候，将高表达的细胞反而缩小了，低表达的细胞整体拉大了，加上每一个marker在细胞注释的时候占的权重不一样。
我们要确定NKT，就需要先看CD45是否表达（免疫细胞），再看CD3（T细胞），最后看CD56（NKT），但是通过AddModuleScore的方法认为这些marker的一样重要的，所以才会造成现在的情况。
换言之，除非能得到一种算法，就像流式手动圈门一样，从大类开始注释，直到小类结束，不然我们又该如何去衡量这个marker的权重呢？
玄学一般的单细胞注释，不一样的注释不一样的结果，我曾经使用garnett包进行分析，区分单个细胞，并进行注释（因为小编一直觉得不管怎么聚类，cluster都是杂的，不可能纯），可是结果总是差强人意。直到现在才明白，为什么garnett会失败，其实和AddModuleScore的一样的，还是那句话，marker权重不同，他们不知道哪个marker对于亚群权重更高，所以，面对这些只有一个方法，有交集的基因不要放，亚群之间一定要找独有的marker，但是这个又如何容易呢？大亚群可以，小亚群呢？先注释大亚群后注释小亚群吗？文章来源地址https://www.toymoban.com/news/detail-525997.html