liftOver 不同版本基因组文件相互转化

这篇具有很好参考价值的文章主要介绍了liftOver 不同版本基因组文件相互转化。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大家好,我是邓飞。前一段时间有小伙伴在星球提问:想将不同版本的SNP数据合并,不想重新call snp,想把绵羊的V2和V4版本的数据合并,具体来说,是V2转为V4然后与V4合并。

liftOver 不同版本基因组文件相互转化
我建议用liftOver软件进行处理,并许诺写篇博客介绍一下。

还有小伙伴想把1.2的参考基因组,变为3.1的,问我如何处理,我还是建议用liftOver,在线网站也可以解决,但是本地编程更快一些。
liftOver 不同版本基因组文件相互转化

1. 不同基因组转换对应关系原理

每一次参考基因组的更新,位置信息会有所变化,有些是插入了一些,有些是平移,有些是没有改变。

但是,每一个版本的参考基因组,都有对应的关系,如果我们根据对应的关系,就可以把旧版本的更新到新版本的位置。

应用领域:不同参考基因组call snp的vcf数据,可以通过这种方式转换为同一基因组版本,然后合并。有些芯片设计时是不同的基因组版本,也可以通过这种形式,进行转换,然后合并。

2. liftOver软件下载

网址:http://hgdownload.cse.ucsc.edu/admin/exe/

有苹果系统和Linux系统,这里以Linux系统为例进行介绍。
liftOver 不同版本基因组文件相互转化

3. 查找物种的基因组版本

网址:https://hgdownload.soe.ucsc.edu/downloads.html

常见的物种都有:
liftOver 不同版本基因组文件相互转化

比如猪的版本有:

  • V11
  • V10
  • V9

liftOver 不同版本基因组文件相互转化
鸡的有:

  • V6
  • V5
  • V4

牛的有:

  • V9,V8,V7

人的有:

  • hg38
  • hg19
  • mm39
  • mm10
    liftOver 不同版本基因组文件相互转化

4. 下载不同版本的liftOver数据文件

比如,这里以鸡为例子,进入网站:https://hgdownload.soe.ucsc.edu/goldenPath/galGal6/liftOver/

这里有V6变为V5,V6变为V4:,我们想把V6变为V5,可以下载:

liftOver 不同版本基因组文件相互转化
当然,也可以V5变为V6,V4变为V6,只需要下载对应的chain文件即可:

liftOver 不同版本基因组文件相互转化
注意,下载的gz文件,不要解压缩。保持压缩状态

5. 整理位置信息

我们以plink数据为例,我们想把v5版的map变为v6版的map,首先将map数据变为bed的格式:

将位置信息整理为bed文件,可以根据map进行整理,染色体,开始位置,结束位置,没有行头。

只接受BED格式文件,BED格式文件只定义前三列:chr start end,无表头
注:end不等于start(如果是单位点的话,建议所有end = start+1)

转换代码:

sed 's/\s\+/ /g' new_v3.map >t1.map
awk '{print "chr"$1,$4,$4+1}' t1.map >tt.bed

6. 运行liftOver命令行转换

liftOver的语法为:

liftOver <输入文件> <chain文件> <输出文件> <unmapped文件>

示例代码:

将bed的V6版本,变为V5版本:

liftOver tt.bed galGal6ToGalGal5.over.chain.gz re_map.bed re_un_map.bed
  • 第一个参数,tt.bed,就是bed文件,根据map生成的bed文件
  • 第二个参数,是根据liftOver网站,下载的压缩文件,是对应关系,网址:https://hgdownload.soe.ucsc.edu/goldenPath/galGal5/liftOver/
  • 第三个参数,是输出的结果文件
  • 第四个参数,是没有匹配的结果文件

结果会输出成功转换的位点,和没有转换的位点。

为了方便我们后续使用,可以先运行一遍代码,将没有转换成功的位点删掉,然后再转换,这样就是一一对应的了。

有任何使用的问题,可以到关注公众号答疑。文章来源地址https://www.toymoban.com/news/detail-465136.html

到了这里,关于liftOver 不同版本基因组文件相互转化的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 易基因:人类大脑的单细胞DNA甲基化和3D基因组结构|Science

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 高通通量表观基因组分析技术可用于阐明大脑中细胞复杂性的基因调控程序。5\\\'-甲基胞嘧啶 (5mCs)是哺乳动物基因组中最常见的修饰碱基,大多数5mCs发生在胞嘧啶-鸟嘌呤二核苷酸(CpGs)上。CG差异甲基化区

    2024年04月17日
    浏览(43)
  • 基于R做宏基因组的进化树ClusterTree分析

    同上一篇的PCoA分析,这个也是基于公司结果基础上的再次分析,重新挑选样本,在公司结果提供的csv结果表上进行删减,本地重新分析作图 表格预处理 在公司给的ClusterTree的原始表格数据里选取要保留的样本,同样保存为逗号分隔的csv文件 代码演示 无色版 上色版

    2024年02月13日
    浏览(36)
  • 基因组组装: 3D-DNA 染色体挂载

    本文将介绍基因组组装过程中,如何利用 HiC 测序数据,进行染色体级别基因组的组装。该过程主要利用 Juicer [1] 和 3D-DNA [2] 进行,有关第一步 Juicer 的过程,已经下方的文章中介绍了,本文主要介绍第二步: 3D-DNA 的安装与使用。 目前基因组组装的主要流程是,利用二代或者

    2024年02月13日
    浏览(34)
  • 高通量测序的数据处理与分析指北(二)-宏基因组篇

    之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理,这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前,我们先来认识一下什么是宏基因组。以我的理解,宏基因组就是某环境中所有生物的基因组的合集,这个环境可以是下水道,河

    2023年04月16日
    浏览(39)
  • MetaHipMer2 - MHM2超算系统宏基因组短读长序列组装神器的介绍和使用

    berkeleylab / mhm2 / Downloads — Bitbucket 文章: Terabase-scale metagenome coassembly with MetaHipMer | Scientific Reports MetaHipMer (MHM) 是一种从头开始的宏基因组短读组装器。这是版本 2 (MHM2),完全用 UPC++、CUDA 和 HIP 编写,可以在单服务器和多节点超级计算机上高效运行,可以扩展以共同组装 te

    2024年01月19日
    浏览(44)
  • Qt音视频开发34-不同库版本不同位数的库和头文件的引用

    做开发过程中难免遇到需要引入第三方库的时候,而且需要在不同库版本、不同系统、不同位数下都需要。第三方的库版本众多,一般在大版本中的小版本都是兼容的,但是大版本不兼容,比如ffmpeg目前就有1-6六个大版本,除去1几乎没人用那还剩5个大版本,目前主要还是4居

    2024年02月01日
    浏览(56)
  • 如何获取不同分区模板的基因表达矩阵,abagen: Allen 大脑图谱遗传数据工具箱的使用笔记

    基因表达从根本上塑造了人类大脑的结构和功能结构。像Allen人脑图谱这样的开放获取转录组数据集提供了前所未有的能力来检查这些机制。abagen工具箱,这是一个用于处理转录组学数据的开放获取软件包,并使用它来检查方法可变性如何影响使用Allen人脑图谱的研究结果。

    2024年02月08日
    浏览(158)
  • 在一台三层交换上,不同VLAN相互通信配置方法

    本实验需求: 通过在cisco catalyst 3550来规划VLAN 100 和VLAN 200,并且配置DHCP 让VLAN100人事部计算机获得IP地址为192.168.0.0/24,让VLAN200市场部计算机获得IP地址为172.16.0.0/24。因为市场部和人事部因为业务上的关系,需要两台服务器相互通信,所在还需要在3550上配置VLAN间相互通信。

    2024年02月05日
    浏览(40)
  • 前端中不同格式的日期相互转换(字符串、时间戳)js相关

    在项目中遇到了,需要实现字符串和Unix时间戳的相互转换,随手记录一下。 我使用的组件库为Naive UI,涉及到的组件为日期选择器(Date Picker)。作者在文档中写道: 实话说我不喜欢这个 feature,因为多数情况下,传递时间字符串不是个最佳实践。但是现实世界是复杂的,我

    2024年02月02日
    浏览(70)
  • 新的计算方法:预测益生菌在不同生长条件下的相互作用

    谷禾健康 益生菌可以产生有益的维生素、消化酶、必需氨基酸、免疫调节和抗菌代谢产物,从而促进人体健康,预防肠道炎症性疾病、自身免疫性疾病和胃肠道感染。其宝贵特性已得到健康行业、医疗专业人士和公众的认可。 比起单菌株益生菌, 多菌株 益生菌 在 改善 肠道

    2024年02月09日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包