ESM蛋白质语言模型系列

这篇具有很好参考价值的文章主要介绍了ESM蛋白质语言模型系列。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

模型总览

  • 第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b

  • 第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个对齐位置的影响,充分利用二维输入的优势。

  • 第三篇《Language models enable zero-shot prediction of the effects of mutations on protein function 》中提出了ESM-1v模型,该模型与ESM-1b模型构架相同,只是预训练数据集改为UR90(ESM-1b预训练数据集为UR50)

  • 第四篇《Language models of protein sequences at the scale of evolution enable accurate structure prediction》,ESMFold,提出了ESM2,代替MSA部分和Structure Template部分,对Postion Embedding做了修改,可以支持更长的氨基酸序列编码

模型名称 input 普适性 模型 论文
ESM-1b single sequence family-specific transformer encoder Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
ESM-MSA-1b MSA few-shot 加了两个行列注意力机制 MSA Transformer
ESM-1v single sequence zero-shot transformer encoder Language models enable zero-shot prediction of the effects of mutations on protein function
ESM-2 single sequence zero-shot transformer encoder Language models of protein sequences at the scale of evolution enable accurate structure prediction

ESM-1B的模型大小如下所示
ESM蛋白质语言模型系列,语言模型,人工智能,自然语言处理

ESM2模型大小如下所示(esm-github截图):
ESM蛋白质语言模型系列,语言模型,人工智能,自然语言处理

ESM-2 embedding:

Bert输入Embeddings包含三个部分,第一部分为token的embeddings,第二部分为位置编码的embeddings,第三部分为token所属段落编码的embeddings

  • tokenizer(由wordpiece创建)对输入pr序列会头尾添加CLS,EOS特殊字符(论文里写的是BOS、EOS),占两个字符长度 ,batch中长度不够加Padding Token [PAD](CLIP用的是GPT所以用EOS)

  • tokenizer会创建固定大小的词汇表,进行分词,查词汇表将token转化成索引列表

  • 加入旋转位置编码

  • 分词后送入token embedding层从而将每一个词转换成向量形式

以下是bert 词嵌入的过程:
tokenizer首先检查整个单词是否在词汇表中。如果没有,则尝试将单词分解为词汇表中包含的尽可能大的子单词,最后将单词分解为单个字符。注意,由于这个原因,我们总是可以将一个单词表示为至少是它的单个字符的集合
self.word_embeddings = nn.Embedding(config.vocab_size, config.hidden_size, padding_idx=0),相同位置输出相同
将这3个ID序列输入到BERT中就会按照BERT模型的定义依次将各种ID转换为对应的embedding:
Token Embeddings, (1, n, 768) ,词的向量表示
Segment Embeddings, (1, n, 768),辅助BERT区别句子对中的两个句子的向量表示,EMS2将蛋白质视为几个句子?
Position Embeddings ,(1, n, 768) ,让BERT学习到输入的顺序属性

ESM蛋白质语言模型系列,语言模型,人工智能,自然语言处理
bert应用于下游任务:
ESM蛋白质语言模型系列,语言模型,人工智能,自然语言处理

ESM-2 output:

最开始是CLS,最后是EOS文章来源地址https://www.toymoban.com/news/detail-733851.html

到了这里,关于ESM蛋白质语言模型系列的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 蛋白质深度学习

    本文主要面向两类目标读者: 一类是想使用机器学习的生物学家,一类是想进入生物学领域的机器学习研究者。如果你不熟悉生物学或机器学习,仍然欢迎你阅读本文,但有时你可能会觉得有点读不太懂!如果你已经熟悉这两者,那么你可能根本不需要本文 —— 你可以直接跳

    2024年02月03日
    浏览(40)
  • 使用AlphaFold2进行蛋白质结构预测

    前言 AlphaFold 2,是DeepMind公司的一个人工智能程序。2020年11月30日,该人工智能程序在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大

    2024年02月01日
    浏览(41)
  • 蛋白质功能预测中PSSM矩阵的生成

    蛋白质功能预测   近年来高通量实验方法快速发展,随之产生大量新型蛋白质,发现的蛋白质数量与其功能注释之间的差距越来越大,蛋白质功能预测成为分子生物学研究领域的核心问题。传统的蛋白质功能预测方法耗时且昂贵,依靠单一数据源的特征信息表达不全面,因

    2024年02月02日
    浏览(31)
  • Top 15 开源3D分子蛋白质建模与渲染软件

    如今,WebGL 是一种趋势技术,因为它允许开发人员使用现代浏览器作为客户端来创建复杂的 3D 交互式图形、游戏,而无需安装额外的插件、扩展或软件。 WebGL允许浏览器直接与GPU(图形处理单元)一起工作。 推荐:用 NSDT编辑器 快速搭建可编程3D场景 有多种 JavaScript 框架旨

    2024年02月09日
    浏览(43)
  • 【NM 2019】综述:基于机器学习引导的定向进化蛋白质工程

    Machine-learning-guided directed evolution for protein engineering | Nature Methods Machine-learning-guided directed evolution for protein engineering 机器学习引导的定向进化蛋白质工程  图1 | 带和不带机器学习的定向进化。 a)定向进化利用迭代循环的多样性生成和筛选来找到改进的变体。未改进的变体的信

    2024年02月11日
    浏览(37)
  • PSP - 开源可训练的蛋白质结构预测框架 OpenFold 的环境配置

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132334671 Paper: OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization OpenFold: 重新训练 AlphaFold2 揭示对于学习机制和泛化能力的新见解 OpenFold 是可训练的开源实

    2024年02月12日
    浏览(34)
  • 26《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享

    ​《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》 本人能力有限,如果错误欢迎批评指正。 第六章:The principles of protein folding kinetics (蛋白质折叠动力学的原理) -速率测量有助于深入了解蛋白质折叠的途径 可折叠的路线是什么?在折叠过程中什么时候形成不

    2023年04月18日
    浏览(39)
  • 27《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享

    ​《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》 本人能力有限,如果错误欢迎批评指正。 第六章:The principles of protein folding kinetics (蛋白质折叠动力学的原理) 整个二级结构通常作为一个单元进行折叠 蛋白质倾向于以基序或二级结构的单位折叠,而不是以

    2023年04月24日
    浏览(62)
  • PSP - 基于开源框架 OpenFold Multimer 蛋白质复合物的结构预测与BugFix

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132410296 AlphaFold2-Multimer 是一个基于 AlphaFold2 的神经网络模型,可以预测多链蛋白复合物的结构。该模型在训练和推理时都可以处理多链输入,并且考虑了链之间的对称性和遗传信息。 对于

    2024年02月11日
    浏览(39)
  • Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用

    论文标题: Predicting drug–protein interaction using quasi-visual question answering system 论文地址: Predicting drug–protein interaction using quasi-visual question answering system | Nature Machine Intelligence 代码:GitHub - prokia/drugVQA: Predicting Drug Protein Interaction using Quasi-Visual Question Answering System 一、问题 目前

    2024年02月11日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包