高通量测序的数据处理与分析指北(二)-宏基因组篇

这篇具有很好参考价值的文章主要介绍了高通量测序的数据处理与分析指北(二)-宏基因组篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

宏基因组篇

前言

之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河流等自然环境,也可以是人体内肠道,口腔等体环境。而宏基因组中的生物往往指的是微生物,如真菌,细菌,病毒,古细菌。

我们这里主要以肠道微生物为例,也就是人体内肠道的宏基因组。肠道菌群的测序样本往往是粪便样本,现在主流的测序方式有两种:一种是16sRNA测序,一种是WGS(Whole Genome Sequencing) 全基因组测序。WGS测序数据量更大,所包含的信息更多,能注释出物种-样本的丰度矩阵,也能注释出基因-样本的丰度矩阵。而16sRNA测序测的是细菌核糖体RNA中的小亚基,这个小亚基的沉降系数是 16s,故被称为 16s RNA,这个16s RNA有一段非常保守的序列和一段变异序列,可以根据16s RNA 的变异度来进行物种分类,所以16s RNA数据往往只能注释出物种-样本的丰度矩阵。

原理介绍

之前文章中也提到了,由于测序技术的限制,目前二代测序只能测较短的碱基片段,所以需要对基因进行碎片化,我们要思考的问题就是这些碎片化的基因如何重新拼回到完整的基因组或者这些碎片化的基因如何确定其属于什么物种从而得到物种的丰度矩阵。

目前对宏基因组原始数据如何注释到物种的方法有两类主流方法,一类是基于bin进行物种注释的方法,一类是不基于bin进行物种注释的方法

基于bin的物种注释

基于bin的物种注释的代表软件有 metawrap,metabat2等。

在宏基因组的原始数据也就是fastq数据中,含有大量的read序列,首先是将read按照序列拼接成contigs,如图所示,上面的的read按照序列重合程度拼接成下面的contigs。

高通量测序的数据处理与分析指北(二)-宏基因组篇

然后把相类似的contigs归为一个bin,而具体如何归bin的方法各种软件所用的原理都有些区别,这里介绍两种方法,也是这个视频中提到的两种分类的方法,第一种是依据四碱基频率来进行区分,所谓四碱基频率就是ATGC四个碱基为一组,共256种碱基组合,同一种物种的这256碱基组合的频率是相似的,并且物种亲缘关系越远则四碱基频率差距越大,故这一个256维的向量可以进行PCA降维,然后用聚类方法将类似的contigs聚到一起作为一个bin。

高通量测序的数据处理与分析指北(二)-宏基因组篇

第二种方法是基于测序深度的,他的基本原理是由于不同的物种基因组大小不同,而同一种物种的基因组大小是类似的,因此可以根据contigs的深度来判断其是否为同一个物种,物种的基因组越大,在随机打碎DNA时产生的碎片越多,read数越高,最后通过read拼接而成的contigs的深度越大。

总而言之,bin就是一堆亲缘关系较近的contigs的合集,也可以视为一个物种基因组的草图。

得到高质量bin后就是对他进行基于数据库的注释,将能注释出来的bin注释出来。而bin的丰度,也就是物种的丰度的计算方式就是bin上每个碱基的深度除以bin序列长度。这个计算方式不太确定,推测的,暂时没找到资料

不基于bin的物种注释

基因bin的物种注释更加准确,但是耗时更长,这里再介绍一类直接从read比对数据得到物种丰度的宏基因组数据处理的方式,代表的软件有 kraken,metaphlan等。

高通量测序的数据处理与分析指北(二)-宏基因组篇

这里主要以kraken的原理为例,它实际上就是将read 分成了多个 k-mers。 这个k-mers的意思就是是k bp长度的子序列,只不过这个子序列覆盖了read所有碱基,如150bp的read 能拆分出 150-31+131-mer, k-mers中的k长度是自定义的,默认是31,然后将这些 k-mers去跟数据库比对,k-mers对上最多的分支就作为这个read的物种分类,如上图,这个序列就是被认为是来自与4号物种的序列。同样的,将每个物种比对上的read数量除以其基因组长度就得到了其丰度。

参考链接

[1] 宏基因组分箱原理

[2] 从CONCOCT入手理解宏基因组binning

[3] kraken注释原理文章来源地址https://www.toymoban.com/news/detail-415335.html

到了这里,关于高通量测序的数据处理与分析指北(二)-宏基因组篇的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据处理方法】主成分分析(PCA)原理分析

            笔者最近在学习的过程需要使用一些数据分析和处理的方法,而PCA就是其中常用的一种手段。但在自学的过程中,由于笔者水平有限,对一些博客中的公式不是能很好理解(数学不好的辛酸Ծ‸Ծ),导致总是对整个方法的原理没有一个透彻的理解。后来在视频用

    2023年04月09日
    浏览(29)
  • 大数据处理与分析-Spark

    (基于Hadoop的MapReduce的优缺点) MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段:Map阶段和Reduce阶段。在Map阶段,数据被分割为多

    2024年02月04日
    浏览(35)
  • 【数据分析】缺失值处理

    1. 均值填充: 对于 数值型 的特征,采用该特征在已有数据中的 平均值或中位数 来填充缺失值。 2. 众数填充: 对于 类别型 的特征,采用该特征在已有数据中 出现频率最高的类别 来填充缺失值。 3. 插值法: 通过已有的数据,推算出缺失值,常用的插值方法包括线性插值、

    2024年02月11日
    浏览(34)
  • 数据关联分析:云计算与大规模数据处理

    数据关联分析是一种常见的数据挖掘技术,它主要用于发现两个数据集之间的关联关系。随着数据规模的不断增加,传统的关联分析方法已经无法满足大规模数据处理的需求。云计算技术在这里发挥了重要作用,它可以提供高性能的计算资源,以满足大规模数据处理的需求。

    2024年04月23日
    浏览(32)
  • 数据分析 — Numpy 数组处理

    NumPy(Numerical Python)是一个用于 科学计算 的 Python 库,提供了多维数组对象(ndarray)以及数学函数,用于 处理大规模数据集和执行数值 计算。 当数据量达到一定级别后,NumPy 计算会比原生 Python 快。 Numpy 的主要对象是 同种元素 的多维数组。这是⼀个所有的元素都是⼀种类

    2024年02月22日
    浏览(32)
  • python大数据分析处理

    Python在大数据分析处理方面有着广泛的应用,其丰富的库和生态系统让Python更加易于使用和定制。本文将介绍Python在大数据分析处理方面的示例。 首先,我们需要导入一些核心的Python库,例如numpy、pandas和matplotlib。这些库不仅提供基本的数组、表格和绘图功能,还能帮助处理

    2024年02月08日
    浏览(31)
  • SpringMVC原理分析 | 数据处理:ModelAndView

    💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! ModelAndView 设置ModelAndView对象,根据view的名称、视图解析器跳转到指定的页面 页面:{视图解析器前缀}+ viewName +{视图解析器后缀} ​ springmvc-servlet.xml Controller类 ServletAPI 设置ServletAPI,不需要视图解析器 通过HttpServletRe

    2024年02月11日
    浏览(29)
  • Elasticsearch的大数据处理与分析

    Elasticsearch是一个开源的搜索和分析引擎,基于Lucene库构建。它具有高性能、可扩展性和实时性等优势,适用于大数据处理和分析场景。Elasticsearch可以处理结构化和非结构化数据,支持多种数据源和格式,如JSON、XML、CSV等。 Elasticsearch的核心功能包括搜索、分析、聚合和监控

    2024年02月19日
    浏览(36)
  • Hadoop大数据处理与分析教程

    本文所需文件(Vmware虚拟机、密匙、乌班图系统、JDK、Hadoop) 链接:https://pan.baidu.com/s/1yU5s36Rgl_jE_mAmHsJBfQ?pwd=i5s6  提取码:i5s6 (1)安装ssh (2)产生SSH Key (3)将公钥放到许可证文件中 (4)更改权限 (5)验证是否可以免密登录本机(下图为登录成功界面)  (6)退出ssh连接 (1)查看V

    2024年02月09日
    浏览(32)
  • 数据仓库和商业智能:数据处理与分析的基础

    [toc] 引言 1.1. 背景介绍 随着互联网和信息技术的快速发展,数据已经成为企业获取竞争优势的核心资产之一。然而,如何处理、存储和分析这些海量数据成为了摆在企业面前的一个严峻挑战。数据仓库和商业智能(BI)应运而生,成为了实现企业数据分析和决策的重要工具。

    2024年02月17日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包