SNP注释神器——VEP(生信)

这篇具有很好参考价值的文章主要介绍了SNP注释神器——VEP(生信)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.背景知识

二代测序发现的变异数量是巨大的,以人类基因组为例,1个人类基因组包含近3500000个SNV突变和1000个拷贝数变异,其中约20000-25000个变异是在编码区,10000个位点发生了氨基酸编码改变,仅有50-100个发生了蛋白截断或功能缺失,手动检查每个位点非常耗时且有些不切实际。
Variant Effect Predictor(VEP)是一个功能强大的工具集,用于编码和非编码区域的基因组变异的分析、注释和优先排序。它提供了对广泛的基因组注释集合的访问,具有各种接口以适应不同的需求,以及用于配置和扩展分析的简单参数。它是开源的,免费使用,并支持结果完全复现。
默认情况下,VEP 使用基于归一化的等位基因匹配算法来识别与输入变体匹配的已知变体。由于输入和已知变体可能具有多个替代(ALT)或变体等位基因,因此每对参考(REF)和ALT等位基因都经过归一化并独立比较以达到潜在的匹配。VCF 允许在同一行上编码多个等位基因类型,而 dbSNP 将单独的 rsID 标识符分配给同一位点的不同等位基因类型。这意味着来自同一输入变体的不同等位基因可能会被分配不同的已知变体标识符。
SNP注释神器——VEP(生信)
并且,VEP 支持使用 HGVS 作为输入。此功能目前正在开发中,并非所有 HGVS 表示法类型都受支持。完全支持与基因组 (g.) 或编码 (c.) 序列相关的符号;蛋白质(P.)符号以有限的方式得到支持,因为确定可能产生单个蛋白质变化的多种可能的潜在基因组序列变化涉及复杂性。如果无法解析特定表示法,将发出警告。

2.vep功能

2.1 可注释变异类型

明确位置及序列改变的变异,全外显子组和全基因组检测出的变异,包含SNVs,insertions、deletion等。
VEP支持多种物种,也可自行构建数据库,不过使用ensemble数据库中所注释好的内容为最佳选择,可在https://ftp.ensembl.org/pub/release-108/variation/ 查看是否支持该物种。

2.2 注释结果信息

(1)功能注释信息,主要是把变异在基因组的位置和功能影响标出。包括基因信息和变异影响,信息来自RefSeq或Ensembl;
(2)频率信息,标记群体数据库频率,包含数据库总的频率及子群体频率。这部分信息主要在疾病研究中根据疾病的流行病学研究,有针对性的筛选低频或罕见变异,为人类疾病研究提供基础。高通量测序检出的变异数目众多,对于遗传病来说,要筛选出致病变异,需要过滤掉一些常见变异,群体变异库的使用可以进一步缩小筛选范围;
(3)软件预测结果信息,突变的致病性预测。可有效缩小变异范围,协助研究者更快找到致病基因;
(4)疾病数据库信息,HGMD、Clinvar等数据库信息,协助用户快速定位已知致病位点;

2.3 过滤筛选

VEP提供注释结果的简单过滤,主要包含:
(1)筛选功能突变,筛选出coding区和剪切区域的突变;
(2)按照频率过滤,筛选出低于指定频率的突变;
(3) 按照遗传模式过滤。

3.软件下载与安装

3.1 安装vep的方式

(1)安装vep
a. 直接使用conda来安装vep软件,省去了多余复杂的配置问题,但是由于vep涉及到的软件版本和依赖较多,因此建议新建一个虚拟环境来安装

conda create -n vep # 需要创建一个虚拟环境安装vep

conda activate vep  # 激活环境

conda install -c bioconda ensembl-vep==108 ## 安装vpe,108是最新版本 

b. 使用docker安装

docker pull ensemblorg/ensembl-vep

(2)下载vep相应的数据库
cache 数据集的下载
cache是一个可下载的文件,包含一个物种的所有转录模型,调控特征和变异数据。下载使用cache是使用VEP的最快和最有效的方法,因为在大多数情况下,只建立一个初始网络连接,大多数数据是从本地磁盘读取的。使用离线模式消除所有网络连接的速度和/或隐私。cache 只有两种类型,分别是refseq和merged。在此基础上,VEP运行时还可以使用plugin和custom参数自定义添加数据库。
注意:强烈建议下载/使用对应于Ensembl VEP安装的VEPcache版本,即VEP cache版本108应该与Ensembl VEP工具版本108一起使用。这主要是由于VEP cache(数据内容和结构)是在每个Ensembl版本中生成的,关于此版本的数据和API更新,因此cache数据格式可能在版本之间有所不同(并且与新版本的Ensembl VEP工具不兼容)。
cache 包含的信息:转录本位置,序列,外显子和其他属性;每个转录本的基因、蛋白质、 HGNC 和其他标识符(在适用情况下,仅适用于 RefSeq cache);现有变异的位置、等位基因和频率;调控区域;SIFT,PolyPhen 的预测和分数;
cache下载方式:进入vep官网:https://ftp.ensembl.org/pub/release-108/variation/
点击vep 进入新的界面,选择需要的的物种和相应版本的cache文件包,点击右键,复制链接,在服务器中wget下载;
(3) 下载vep相关的插件
vep插件放在github公共仓库中(链接:https://github.com/Ensembl/VEP_plugins),根据需要下载相应的插件;
vep官网有vep插件的详细介绍(链接:https://asia.ensembl.org/info/docs/tools/vep/script/vep_plugins.html);

4.vep的使用

4.1.使用基本的参数进行测试

/opt/vep/src/ensembl-vep/vep -i ${sample}.vcf \ # 输入的vcf文件
--dir_cache ${dir_cache} \ # cache文件包路径
--fork 4 \ # 线程数
--refseq /--merged \ # cache文件包的种类,vep 的cache文件包只有两种,分别是refseq,merged
--format vcf \ 
--output_file test.vcf \ 
--custom ${dir_plugins}/MT.mitomap.vcf.gz,Mitomap,vcf,exact,0,AC,AF,Disease,DiseaseStatus \
--offline \
--assembly GRCh37 \ 
--use_given_ref \ 
--vcf \
--force_overwrite \ 

4.2 在docker下使用

docker run -t -i -v $HOME/vep_data:/opt/vep/.vep ensemblorg/ensembl-vep

vep官网中有关运行vep有很多参数,比如 Basic options 、Cache options 、Other annotation sources、 Output format options 等,其包含很多参数选项和简介,根据不同的需求选择合适的参数;vep参数的网站 https://asia.ensembl.org/info/docs/tools/vep/script/vep_options.html文章来源地址https://www.toymoban.com/news/detail-480616.html

到了这里,关于SNP注释神器——VEP(生信)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • IntelliJ IDEA修改背景颜色大全(护眼绿等)设置注释颜色

    一.IDEA默认有3种背景颜色 路径为File-settings-Editor-Color Scheme可以设置软件默认颜色,旁边的小齿轮添加颜色名字 第一种方法: IDEA设置一张背景图片,路径:File-Settings-AppearanceBehavior-Appearance 第二种方法: 手动设置护眼绿的RGB颜色 路径:File-Settings-Editor-Color Scheme-General  到这里

    2024年02月13日
    浏览(56)
  • 写注释自动出代码?!在Cocos中试水AI编程工具Copilot,摸鱼神器or失业警告?

    去年的某一天,Cocos 的开发者交流群里突然爆发出一阵惊叹,有人直呼“饭碗不保”,有人忧虑版权和保密问题,也有人给出了积极的反馈—— 上下滑动查看更多 大家在讨论的 Copilot 是 OpenAI 与 GitHub 联合推出的一个 AI 自动编程工具,能根据上下文自动生成代码,供编程者参

    2024年02月09日
    浏览(39)
  • conda install ensembl-vep vep -V 报错Compress/Zlib.pm

    Compress::Raw::Zlib version 2.201 required--this is only version 2.105 at /xxxx/lib/perl5/site_perl/Compress/Zlib.pm line 11. BEGIN failed--compilation aborted at /xxxx/lib/perl5/site_perl/Compress/Zlib.pm line 11. Compilation failed in require at /xxxx/share/ensembl-vep-110.0-0/Bio/EnsEMBL/Variation/ProteinFunctionPredictionMatrix.pm line 83. BEGIN failed--

    2024年04月17日
    浏览(27)
  • 数据湖真的能取代数据仓库吗?【SNP SAP数据转型 】

    数据湖和数据仓库的存在并不冲突,也并不是取代的关系,而是相互的融合关系。 数据湖是近两年中比较新的技术在大数据领域中,对于一个真正的数据湖应该是什么样子,现在对数据湖认知还是处在探索的阶段,像现在代表的开源产品有iceberg、hudi、Delta Lake。 那对于数据

    2024年02月14日
    浏览(33)
  • TEE 背景知识

    计算机世界的安全,是保护计算机系统和网络免受攻击者的攻击,这些攻击可能导致未经授权的信息泄露、窃取或损坏硬件、软件或数据,以及它们所提供的服务的中断或误导。更多参考 Computer_security 谈安全,我联想到各种概念(网络安全/信息安全/功能安全),我认为都可以

    2024年02月15日
    浏览(36)
  • AI_背景知识

    当谈论ChatGPT的技术时,我们实际上在讨论OpenAI GPT模型。这是一个基于Transformer架构的大型语言模型,通过两个主要步骤进行训练:预训练和微调。 训练过程:预训练和微调。 首先,在预训练阶段,模型使用大量没有标签的文本数据(如维基百科、新闻、小说等),通过预测

    2024年02月14日
    浏览(26)
  • 后缀为.vep文件转换成.mp4文件

    后缀为.vep的视频无法用普通的播放器播放 vep格式是大黄蜂加密格式后缀,如果有账号密码即可直接打开;如果没有就得用提取器转换成mp4格式,使用普通播放器播放即可 一、打开下载下来的筛选器,把需要转换格式的视频选中拉进筛选器,点击开始筛选 二、打开提取器,把

    2024年02月11日
    浏览(118)
  • 通俗易懂的知识蒸馏 Knowledge Distillation(下)——代码实践(附详细注释)

    第一步:导入所需要的包 第二步:定义教师模型 教师模型网络结构(此处仅举一个例子):卷积层-卷积层-dropout-dropout-全连接层-全连接层 第三步:定义训练教师模型方法 正常的定义一个神经网络模型 第四步:定义教师模型测试方法 正常的定义一个神经网络模型 第五步:

    2024年02月12日
    浏览(39)
  • vep加密视频破解转换翻录为mp4教程

    可能有很多人都没有听说过这个视频格式,这是大黄蜂云课堂播放器所独有的格式,只有通过该播放器才能够打开这个加密的视频,安全系数很高,但也极大的限制了一个视频的传播和播放。如果我们在网络上下载了vep格式的视频,可以通过录屏的方式转换为mp4格式,这样就

    2024年02月12日
    浏览(53)
  • 不可不看的Java基础知识整理,注释、关键字、运算符

    万丈高楼平地起,要想学好汉语首先学拼音,想学好英语首先学26个字母,对于编程语言来说,一样的道理,要想学好必须先掌握其基础语法和知识,今天我们就来唠一唠Java语言中那些出现频率极高,又很基础的知识点吧! 注释的作用:拨云见日! 在日常的工作中,总会遇

    2024年01月16日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包