Biopython序列比对

这篇具有很好参考价值的文章主要介绍了Biopython序列比对。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

从InterPro网站(https://www.ebi.ac.uk/interpro/download/Pfam/)下载多序列比对文件Pfam-A.seed.gz(含多个多序列比对)

​wget https://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.seed.gz

解压,取第一个多多序列比对文件

cat Pfam-A.seed | while read line; do if [[ ${line} != "//" ]]; then echo ${line}; else; echo ${line}; break; fi; done > Pfam-A-1.seed

InterPro 通过将蛋白质分类为家族并预测结构域和重要位点,对蛋白质进行功能分析。为了以这种方式对蛋白质进行分类,InterPro 使用了由组成 InterPro 联盟的几个不同数据库(称为成员数据库)提供的预测模型(称为特征)。我们将这些成员数据库中的蛋白质特征整合到一个单一的可搜索资源中,利用它们各自的优势来生成一个强大的集成数据库和诊断工具。

from Bio import AlignIO
align_file = "/path_to_file/Pfam-A-1.seed"
### 1. 读取序列比对文件
## read方法用于读取给定文件中可用的单个比对数据。
# 文件格式为 Stockholm
align = AlignIO.read(open(align_file), "stockholm")
# 常见的多序列比对格式还有 "clustal" "phylip"等
print("Alignment length %i" % align.get_alignment_length())
for record in align:
    print(record.seq + " " + record.id)

## parse方法返回可迭代的对齐对象,可以对其进行迭代以获得实际的对齐方式
alignments = AlignIO.parse(open(align_file), "stockholm") 
print(alignments) 

for alignment in alignments: 
    print(alignment)

### 2. 双序列比对
from Bio import pairwise2
from Bio.Seq import Seq 
seq1 = Seq("ACCGGT") 
seq2 = Seq("ACGT")

alignments = pairwise2.align.globalxx(seq1, seq2)
print(alignments)

for alignment in alignments: 
    print(alignment)

## 格式化输出
from Bio.pairwise2 import format_alignment 
alignments = pairwise2.align.globalxx(seq1, seq2) 
for alignment in alignments: 
    print(format_alignment(*alignment)) 

### 3. Biopython通过Bio.Align.Applications模块为许多序列比对工具提供接口。
from Bio.Align.Applications import ClustalwCommandline

参考
https://www.yiibai.com/biopython/biopython_sequence_alignments.html
https://biopython.org/wiki/AlignIO文章来源地址https://www.toymoban.com/news/detail-650433.html

到了这里,关于Biopython序列比对的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用NCBI数据库查询并使用BLAST比对新冠病毒及九种变种的核酸序列

    学会使用NCBI这一常见生物数据库 学会使用比对分析工具BLAST分析核酸或氨基酸序列。 登录NCBI生物信息站点,查找新冠病毒(COVID-19)和其他几个变种的核酸序列,并利用多序列比对工具(ClustalX)观察说明比对结果;也可以先检索到COVID-19的核酸或氨基酸序列,利用FASTA序列

    2024年02月08日
    浏览(25)
  • 生物信息-软件安装

    从终端进wsl: WSL2下安装conda 1.wget: unable to resolve host address解决方法 2.Windows中WSL2(子系统)设置默认root用户登入修改conf文件出现报错: E212: Can\\\'t open file for writing Press ENTER or type command to continue 原因: 1.当前用户的权限不足 2.此文件可能正被其他程序或用户使用。 一般错误原因

    2024年02月03日
    浏览(35)
  • 区块链与生物信息数据分析:实现生物研究的新方法

    生物信息学是一门研究生物数据的科学,其主要关注生物数据的收集、存储、处理、分析和挖掘。随着生物科学领域的快速发展,生物信息学也在不断发展,为生物研究提供了更多的数据和工具。然而,生物信息学数据的规模非常庞大,分布在多个数据库和平台上,这使得数

    2024年04月16日
    浏览(39)
  • 【TOP生物信息】使用SingleR注释细胞类型

    扫码关注下方公粽号,回复推文合集,获取400页单细胞学习资源! 本文共计1887字,阅读大约需要6分钟,目录如下: SingleR基本介绍 SingleR包安装 SingleR包使用 1.使用已有的参考数据集进行细胞定义 2.使用自定义数据集进行细胞定义 小结 获取代码 代码参考 往期单细胞系统教程

    2024年02月04日
    浏览(69)
  • 线性代数在生物信息学中的应用

    生物信息学是一门研究生物学信息的科学,它涉及到生物数据的收集、存储、处理、分析和挖掘。生物信息学的应用范围广泛,包括基因组学、蛋白质结构和功能、生物网络、生物信息数据库等方面。线性代数是一门数学分支,它研究的是向量和矩阵之间的关系和运算。线性

    2024年04月28日
    浏览(35)
  • Selenium定向爬取PubMed生物医学摘要信息

    目录 一、前言 1、PubMed是什么? 2、PubMed特点 二、实现代码 三、分析HTML

    2024年02月08日
    浏览(37)
  • 生物信息学 | 借助 AI 更高效地开启研究

    By 超神经 生物信息学 (Bioinformatics) 是指利用应用数学、信息学、统计学和计算机科学的方法,研究生物学问题。 随着计算机科学技术的发展,AI 在解决复杂又颇具挑战的生物学研究问题方面,显露出极大的优势,进一步加速了传统研究范式的转变及升级。 作者 | 三羊 编辑

    2024年02月06日
    浏览(40)
  • FPGA加速技术在生物信息学中的应用

    作者:禅与计算机程序设计艺术 随着近年来生物信息学领域的发展,人们越来越关注复杂系统的模式构建、网络分析、数据挖掘等问题。由于生物信息学领域涉及的数据规模、计算量、分布式、实时性要求高,传统CPU计算资源难以满足需求,同时还有对成本的限制。因此,采

    2024年02月14日
    浏览(29)
  • 大数据在生物信息学研究中的重要作用

    生物信息学是一门研究生物学信息的科学,它结合生物学、计算机科学、数学、统计学等多学科知识,涉及到生物序列数据的收集、存储、分析、比较和挖掘等方面。随着生物科学领域的快速发展,生物信息学在生物科学研究中发挥着越来越重要的作用。 大数据在生物信息学

    2024年04月25日
    浏览(22)
  • python 身份证读取 照片并通过摄像头实时 比对相似度 人证比对软件 源码

    最近朋友需要一个人证比对软件需要实现以下功能: 通过摄像头实时采集人脸图像 通过身份证读卡器采集身份证信息 和 身份证照片 使用实时人脸照片 和 身份证照片做相似度比对 比对后返回相似度,或者返回同一人,非同一人 实时采集照片 和 身份证信息照片存档,方便

    2024年02月11日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包