基因组组装: 3D-DNA 染色体挂载

这篇具有很好参考价值的文章主要介绍了基因组组装: 3D-DNA 染色体挂载。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

导读

本文将介绍基因组组装过程中,如何利用HiC测序数据,进行染色体级别基因组的组装。该过程主要利用 Juicer[1]3D-DNA[2] 进行,有关第一步Juicer的过程,已经下方的文章中介绍了,本文主要介绍第二步:3D-DNA的安装与使用。

1. 背景介绍

目前基因组组装的主要流程是,利用二代或者三代技术进行测序,利用得到的测序数据,拼接为contig级别的基因组,如果需要上升到染色体级别,那么就需要对物种进行HiC测序,进一步进行染色体挂载。目前对于二倍体动物,3D-DNA是效果最好的,下面就介绍3D-DNA的使用方法。

2. 安装

2.1. 流程图

hi-c染色体挂载徐洲,程序人生
3D-DNA流程图

上图是使用3D-DNA进行染色体挂载的流程图,其中第一步是测序和基础组装,测序一般是交给测序公司来完成,contig组装利用物种对应的组装软件即可。第二步时利用JuicerHiC数据进行分析。第三步是利用3D-DNA进行挂载。

2.2. 依赖

下面这些是3D-DNA的依赖,如果阅读过之前Juicer的使用教程,那么环境已经配置完成,没有阅读过的读者,可以在文末选择跳转。

  • LastZ (version 1.03.73 released 20150708) –仅适用于二倍体
  • Java version >=1.7
  • Bash >=4
  • GNU Awk >=4.0.2
  • GNU coreutils sort >=8.11
  • Python >=2.7 - 仅适用于染色体编号感知分离器模块
  • scipy numpy matplotlib - 仅适用于染色体编号感知分离器模块

2.3. clone

# 从Github拉取仓库
git clone https://github.com/theaidenlab/3d-dna.git

3. 实战

3.1. 数据准备

  • 基因组文件: genome.fa
  • Juicer结果: merged_nodups.txt

3.2. run

# 对组装的信心高,用-r 0, 否则用默认的-r 2就行了
# -r 代表 3d-dna 修正的次数
# merged_nodups.txt 在 上一步Juicer运行的aligned目录下
/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt &> log.txt &

3.3. 结果

最终的输出文件最关键的是下面三类:

  • .fasta: 以 FINAL标记的是最终结果
  • .hic: 各个阶段都会有输出结果,用于在JABT中展示
  • .assembly: 各个阶段都会有输出,一共两列,存放contig的组装顺序

将结果中的.hic文件和.assembly文件导入Juicebox中进行调整,最后输出修改后的.assembly文件,再运行下面命令,即可获取染色体级别的基因组。

/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt

# genome.review.assembly 来自Juicebox中导出

读者有任何问题,可在评论区进行交流。

参考资料

[1]

Juicer: https://github.com/aidenlab/juicer

[2]

3D-DNA: https://github.com/aidenlab/3d-dna

本文由 mdnice 多平台发布文章来源地址https://www.toymoban.com/news/detail-638797.html

到了这里,关于基因组组装: 3D-DNA 染色体挂载的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • liftOver 不同版本基因组文件相互转化

    大家好,我是邓飞。前一段时间有小伙伴在星球提问:想将不同版本的SNP数据合并,不想重新call snp,想把绵羊的V2和V4版本的数据合并,具体来说,是V2转为V4然后与V4合并。 我建议用 liftOver 软件进行处理,并许诺写篇博客介绍一下。 还有小伙伴想把1.2的参考基因组,变为

    2024年02月07日
    浏览(31)
  • 聚焦甲烷循环,宏基因组分析项目再创新!

            甲烷,化学式CH4,在自然界分布很广,是最简单的有机物,也是最简单的烃。但同时也是一种重要的温室气体,是一种仅次于二氧化碳的强大温室气体,对环境和全球变化具有重大影响,其导致全球变暖潜力是CO2的28倍,约占全球变暖的20%。产甲烷过程和甲烷氧化

    2024年02月14日
    浏览(35)
  • 生信步骤|原核生物基因组注释--Prokka

    全基因组注释是鉴定生物基因组特征的过程。Prokka是一个适用于原核生物基因组注释工具,可以注释细菌,古菌和病毒基因组。Prokka在预测基因组CDS区域时采用了多种数据库,内置的三个核心数据库包括ISfinder数据库,NCBI细菌抗性数据库和UniprotKB数据库。 此外,prokka内置基因

    2024年02月04日
    浏览(80)
  • 基于R做宏基因组的进化树ClusterTree分析

    同上一篇的PCoA分析,这个也是基于公司结果基础上的再次分析,重新挑选样本,在公司结果提供的csv结果表上进行删减,本地重新分析作图 表格预处理 在公司给的ClusterTree的原始表格数据里选取要保留的样本,同样保存为逗号分隔的csv文件 代码演示 无色版 上色版

    2024年02月13日
    浏览(33)
  • 高通量测序的数据处理与分析指北(二)-宏基因组篇

    之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河

    2023年04月16日
    浏览(38)
  • 算法基础复盘笔记Day07【搜索与图论】—— Prim、Kruskal、染色体判定二分图、匈牙利算法

    ❤ 作者主页:欢迎来到我的技术博客😎 ❀ 个人介绍:大家好,本人热衷于 Java后端开发 ,欢迎来交流学习哦!( ̄▽ ̄)~* 🍊 如果文章对您有帮助,记得 关注 、 点赞 、 收藏 、 评论 ⭐️⭐️⭐️ 📣 您的支持将是我创作的动力,让我们一起加油进步吧!!!🎉🎉 1. 题目

    2024年02月02日
    浏览(47)
  • 易基因:群体分析揭示了DNA甲基化在番茄驯化和代谢多样性中的作用|组学研究

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 2023年3月23日,海南大学三亚南繁研究院/热带作物学院博士研究生郭昊等为第一作者、王守创教授为通讯作者在《Science China Life Sciences》杂志发表题为“Population analysis reveals the roles of DNA methylation in tomato

    2023年04月11日
    浏览(42)
  • 易基因:单细胞DNA甲基化与转录组分析揭示猪生发泡卵母细胞成熟的关键调控机制|项目文章

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 在哺乳动物中,窦卵泡内的生发泡(germinal vesicle,GV) 卵母细胞可以保持数月或数年的静止状态。促黄体生成素(luteinizing hormone,LH)激增促进了减数分裂(meiosis)恢复,使卵母细胞获得受精后和早期胚胎发育

    2024年02月14日
    浏览(46)
  • DNA序列(DNA Consensus String, ACM/ICPC Seoul 2006, UVa1368) rust解法

    输入m个长度均为n的DNA序列,求一个DNA序列,到所有序列的总Hamming距离尽量小。两个等长字符串的Hamming距离等于字符不同的位置个数,例如,ACGT和GCGA的Hamming距离为2(左数第1, 4个字符不同)。 输入整数m和n(4≤m≤50,4≤n≤1000),以及m个长度为n的DNA序列(只包含字母A,C,

    2024年02月07日
    浏览(36)
  • P4491 [HAOI2018] 染色

    传送门:洛谷 写本题需要知道一个前置知识: 假设恰好选 k k k 个条件的方案数为 f ( k ) f(k) f ( k ) ;先钦定选 k k k 个条件,其他条件无所谓的方案数为 g ( k ) g(k) g ( k ) 那么存在这样的一个关系: g ( k ) = ∑ i = k n C i k f ( i ) g(k)=sum_{i=k}^nC_{i}^kf(i) g ( k ) = ∑ i = k n ​ C i k ​ f ( i ) 上述

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包