PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

这篇具有很好参考价值的文章主要介绍了PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

蛋白质是生命体执行功能的基本生物分子。蛋白质分子折叠结构的多样性赋予了它们独特而丰富的功能,从而也让生命世界丰富多彩。尽管理论上蛋白质序列和结构空间十分庞大,然而历经数十亿年进化后,只有极少部分蛋白空间出现于自然界。这可能是生命体在演化过程中为适应自然选择压力而做的最终选择。研究表明,目前的PDB数据库几乎涵盖了所有天然折叠,而SCOPe的蛋白拓扑构型数据库的统计显示这些天然折叠只含有不到1500种不同蛋白折叠类型。这些数据表明,蛋白质的理论结构空间和自然界展示的结构空间存在巨大差异。

 

为探索和弥补这种差异,也鉴于蛋白质对生命体的重要性,近年来利用计算机来从头设计具有比天然蛋白更强劲功能的人工蛋白质受到极大关注。然而,绝大部分尝试都是基于实验已经解析的天然蛋白结构来设计新的蛋白序列。虽然这些尝试能有效解决某些问题(比如功能优化),但是基于天然蛋白结构的设计存在很大局限性。因为大自然只进化并赋予了很有限的蛋白折叠类型,依赖于天然结构的蛋白设计只能在极为有限的结构空间内进行微调,从而大大制约它在实际研究(例如药物研发)中的应用。可以想象,所有天然蛋白折叠都无法胜任某项任务的极端情况也会存在。特别是,随着人工制造全新生命物质的可能性越来越高,这种需求会变得越来越普遍。因此,从头设计蛋白质,即不仅仅是基于已有天然结构来设计蛋白序列,而是设计全新的蛋白结构(例如新的折叠类型和药物结合口袋)和具有特定功能的蛋白序列,已经成为目前生命科学领域中一个重要前沿方向,受到了广泛关注!

针对蛋白构型从头设计这一重大基础性科学问题,美国密西根大学华人科学家张阳教授课题组开发了一款全新的蛋白构型设计工具:FoldDesign。该工具通过不依赖于蛋白序列(或称“无序列”)片段组装模拟,可以对任何蛋白质拓扑学构型进行高保真度、高稳定性的从头设计。该算法于近日发表于美国国家科学院院刊(PNAS),张阳教授为论文通讯作者,张阳实验室的博士研究生Robin Pearce、研究科学家黄小强博士分别为论文第一、第二作者(图1)。

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

图1. 《PNAS》在线发表论文

FoldDesign方法简述

图2描述了FoldDesign算法流程。FoldDesign以任意给定蛋白的二级拓扑结构序列作为输入,将其拆分为长度为1~20的片段,并从PDB结构库中搜索与这些片段具有相似二级结构的序列片段,并对检索到的片段结构进行模拟组装。因FoldDesign在设计蛋白结构时序列未知,作者开发了一套不依赖于蛋白序列的能量函数,在片段替换的基础上引入11种新的构象移动模式(如键长伸缩、键角弯曲、二面角旋转等),通过副本交换蒙特卡洛(replica-exchange Monte Carlo)模拟进行片段组装,生成大量保持初始二级结构约束的蛋白3D结构模型,并从中选择FoldDesign能量打分最佳构象进行原子水平的精调以产生最终蛋白结构模型。需要注意的是,FoldDesign并不设计蛋白序列。基于FoldDesign结构,蛋白序列设计工作可由张阳课题组先前开发的EvoDesign和EvoEF2或者其他蛋白序列设计软件来实现。

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

图2. FoldDesign算法流程图:利用无序列片段组装模拟实现全新蛋白质结构从头设计

实验结果及分析

需要指出的是,计算机自动产生一个稳定紧致、且满足人工需要的任意拓扑学二级结构的蛋白质构型并非易事。传统的、基于模板的蛋白构型算法,比如I-TASSER和Modeller,所构建的模型往往局限于已知的同源模板。即使加入新的约束限制,其最终模型仍难以偏离同源模板以产生有意义的、紧致的新结构。即使是从头预测算法,如Rosetta和QUARK,由于其序列依赖的能量项约束所限,其构造的模型往往聚焦于若干团簇,只能覆盖有限的折叠空间。


本研究中,为检验FoldDesign产生新蛋白构型的能力,作者构建了一个包含354个天然拓扑结构的数据集(涵盖α、β、α/β蛋白),然后对FoldDesign设计结构的能力进行系统性评估。作者首先考察了FoldDesign设计的蛋白折叠可保持(输入时)指定的二级结构序列的能力。为此,作者用DSSP获取354个蛋白的二级结构序列作为输入,通过FoldDesign设计3D结构后提取其二级结构序列并与输入的二级结构进行比较。作者采用Q3打分来量化设计的蛋白折叠对人工输入的二级结构的保真度,并对FoldDesign与Rosetta两个蛋白折叠设计方法进行比较。测试表明,FoldDesign折叠保持初始二级结构的能力显著优于Rosetta。FoldDesign在全数据集上Q3打分为87.7%,Rosetta为83.3%。FoldDesign在α蛋白上表现优异,Q3打分达到93.4%,而Rosetta只有82.8%。

尽管基于二级结构相似性的片段替换是FoldDesign组装3D折叠的基础,作者发现引入的新构象运动模式有助于生成能量打分更优的结构(图3A)并显著提高组装效率(图3B)。例如,只考虑片段组装时,蒙特卡洛模拟容易“卡”在特定的构象(图3C,水平线部分),而新的构象运动集可以很好地克服这种情况(图3D,不存在水平线)。这说明这些新的构象运动模式可以帮助FoldDesign探索更细致的构象空间,从而有利于生成能量更优的折叠。考虑新的构象运动集也让所设计的折叠更为紧凑(图3D),而只基于片段替换设计的折叠则较为松散(图3C)。这说明构象移动对基于片段组装的蛋白结构设计非常重要

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

图3.  新的构象运动模式对FoldDesign从头设计至关重要 

作者随后采用EvoEF2和RosettaFixBB对FoldDesign和Rosetta设计的354个结构进行蛋白序列从头设计。实验表明,无论用EvoEF2还是RosettaFixBB,在基于FoldDesign结构上设计的蛋白具有更高的残基包埋比例,并与天然蛋白的残基包埋比例相当(图4A)。相应地,基于FoldDesign结构设计的蛋白具有较小的溶剂可及表面,且与天然蛋白的溶剂可及表面相当(图4B)。作者采用两种高精度的蛋白结构评估统计势GOAP和ROTAS对设计的蛋白进行分析,发现基于FoldDesign的蛋白具有更优的GOAP/ROTAS能量打分(图4C-D)。这些结果表明,与其他的构型设计算法相比,FoldDesign设计的蛋白结构具有更好的包埋核心、更小的溶剂可及表面、以及更合理的三维拓扑(体现于更低的GOAP/ROTAS打分)。

 PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

图4.  FoldDesign与Rosetta设计的蛋白结构物理、能量等性质的对比

接下来,作者对EvoEF2/RosettaFixBB设计的序列能否折叠成FoldDesign生成的结构及其稳定性进行考察。作者采用两种方法进行评估:AlphaFold2结构预测和分子动力学模拟。总体上,基于FoldDesign结构所设计的序列由AlphaFold2预测的结构更接近初始FoldDesign结构(平均TM-score更高,图5C-D)。通过20纳秒分子动力学模拟表明,基于FoldDesign结构设计的蛋白能更好地保持初始FoldDesign结构(图5A-B)。这说明,与Rosetta相比,FoldDesign设计的构型更稳定。

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

图5. 基于FoldDesign和Rosetta结构设计蛋白序列后的分子动力学模拟(A-B)及AlphaFold2结构预测分析(C-D)。图A/C基于EvoEF2设计序列,图B/D基于RosettaFixBB设计序列。(E)354个FoldDesign结构与PDB中最相似结构的TM-score分数的直方分布

作者进一步将最新的AI蛋白质结构预测软件AlphaFold2对其所设计的序列进行结构预测。图6直观地展示了FoldDesign设计的稳定的、折叠良好的蛋白结构。

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

 图6. FoldDesign设计的新结构以及与AlphaFold2结构预测比较示例

探索设计天然蛋白折叠之外的构型新空间

特别值得一提的是,尽管FoldDesign产生的折叠构型很好地保持了初始二级结构并且具有很高的稳定性(图5A-B),仍有约22%的FoldDesign构型与PDB数据库中的结构完全不同,即TM-score <0.5(图5E)。这些结果表明,FoldDesign不仅能够生成紧凑而稳定的结构,而且可以探索新的折叠空间。显然,这对于利用计算机来设计全新结构和功能的蛋白质至关重要。

为什么FoldDesign拥有设计全新拓扑结构的能力?为了回答这个问题,作者统计了自然界中所有已知5万1千多个非冗余蛋白质的超二级结构(也叫做‘Smotif’,即由一个loop链接两个连续二级结构的局域构型)。按照Smotif在自然蛋白中出现的频率,作者把这些超二级结构分成‘低频’(极少出现,频率低于0.001),‘次低频’(较少出现,低于0.01),‘次高频’(经常出现,低于0.1),和‘高频’(极常出现,高于0.1)等四个区域。

图7显示,FoldDesign在‘低频’和‘次低频’两个低频区的超二级结构采样远高于天然蛋白质。这一方面揭示出FoldDesign产生新拓扑构型的来源,即FoldDesign采用了与天然结构不同的超二级结构转角分布。另一方面来讲,因为FoldDesign的构型是计算机在给定物理力场中能量最优的结果,它本身没有类似于天然蛋白的进化压力。因此,这些数据也显示出,目前我们所看到的大自然蛋白质的有限构型(包括特殊的超二级结构的分布),应该主要是功能进化压力的结果。而FoldDesign这样没有进化压力的计算机蛋白质模拟,有助于探索自然界中没有产生的新的蛋白质结构和功能空间。

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

 图7. FoldDesign结构与天然蛋白的超二级结构频率比较

图8显示了两个例子,其二级结构分布分别取自于PhoQ组氨酸激活酶和谷氨酸棒杆菌调节蛋白。虽然使用了与天然蛋白相同的二级结构类,但是因为FoldDesign采用了很多不常见的超二级结构,它最终设计的蛋白质整体结构与天然结构完全不同(最接近的TM-score只有0.467和0.451)。

PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计

图8. 因为采用了不同的超二级结构(图右),FoldDesign设计出与PDB库天然蛋白完全不同的拓扑学构型(图左)。两个例子分别来自(A)PhoQ组氨酸激活酶(PDBID:1id0A)和(B)谷氨酸棒杆菌调节蛋白(PDBID:2p19A)

结论与展望

总之,本研究开发了一个新的蛋白结构从头设计算法(FoldDesign)。通过利用无序列片段组装模拟,FoldDesign能够对任何拓扑学构型,设计产生稳定紧致、高保度的蛋白质三级结构。大规模基准测试表明,与其他蛋白设计软件(如Rosetta)相比,FoldDesign设计能明显更好地复现人工所要求的蛋白质二级结构,其所设计的整体折叠构型也更紧凑、物理学上更加稳定。基于人工智能的结构预测实验显示,FoldDesign结构设计的蛋白序列能更大程度地折叠成FoldDesign产生的初始结构,表明FoldDesign构型具有更好的可设计性和自洽性。

特别重要的是,因为FoldDeign的构型完全基于物理势能优化,从而避免了自然进化的压力,其所设计的蛋白质倾向于采用自然界不常用的超二级结构,因此可能具有与自然蛋白完全不同的整体构型。这种新构型设计的能力对于探索蛋白世界的整体结构和功能空间,乃至设计产生新的生命体,都具有重要意义。

参考文献

https://www.pnas.org/doi/10.1073/pnas.2208275120文章来源地址https://www.toymoban.com/news/detail-467781.html

到了这里,关于PNAS:密歇根大学张阳教授团队实现对任意人工蛋白构型的从头设计的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Talk预告 | 清华大学交叉信息研究院助理教授赵行:基于视觉感知的自动驾驶运动预测

    本期为 TechBeat人工智能社区 第 481 期 线上Talk! 北京时间 3 月15 日 (周三)20:00 , 清华大学交叉信息研究院助理教授—— 赵行 的Talk将准时在TechBeat人工智能社区开播! 他与大家分享的主题是:  “基于视觉感知的自动驾驶运动预测” ,届时将分享对一个基于视觉感知的、端到

    2023年04月14日
    浏览(30)
  • 倒计时 1 天!浙江大学、乘云数字、阿里云等多位技术专家教授解读最新运维技术

    莫听监控繁杂声,何妨观测且徐行; 智能诊断快胜马,一键运维定乾坤。 各位朋友们,距离系统运维 MeetUp 开始只剩 2 天!此次 MeetUp 将围绕 Linux 的应用和系统可观测,eBPF 跟踪以及诊断技术等系统运维热门话题进行,活动上也将重磅发布“龙蜥一站式自动化运维 SysOM 3.0”,

    2024年02月13日
    浏览(32)
  • 清华大学团队提出一种基于稳态视觉诱发反应的混合脑机接口

    更多脑机接口前沿技术,关注公众号:脑机接口社区 近日,清华大学团队提出一种基于脑电图(EEG)和磁脑电图(MEG)混合的脑机接口(BCI)系统的研究,旨在提高BCI性能并解决“BCI文盲”的问题。虽然EEG-based BCI已经实现了大脑和外部设备之间的通讯,但由于头骨会减弱和

    2024年02月12日
    浏览(29)
  • Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

    自从Meta发布LLaMA以来,围绕它开发的模型与日俱增,比如Alpaca、llama.cpp、ChatLLaMA以及Vicuna等等,相关的博客可以参考如下: 【Alpaca】斯坦福发布了一个由LLaMA 7B微调的模型Alpaca(羊驼),训练3小时,性能比肩GPT-3.5 【llama.cpp】量化130亿参数LLaMA模型的llama.cpp,推理仅需4GB内存

    2024年02月11日
    浏览(37)
  • 斯坦福大学团队提出AI生成文本检测器DetectGPT,通过文本对数概率的曲率进行可解释判断

    原文链接:https://www.techbeat.net/article-info?id=4583 作者:seven_ 随着以ChatGPT等大型语言模型(large language models,LLMs)的爆火, 学界和工业界目前已经开始重视这些模型的安全性 ,由于ChatGPT强大的 知识存储和推理能力 ,其目前可以针对各种各样的用户输入来产生非常流畅和完整

    2024年02月09日
    浏览(37)
  • 每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

    Orca-Math 是微软研究院发布的数学推理模型, 该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。 微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧! 3 月 11 日-3 月 15 日,

    2024年03月22日
    浏览(34)
  • 【笔记】【算法设计与分析 - 北航童咏昕教授】绪论

    算法设计与分析 - 北航童咏昕教授 定义 给定计算问题,算法是一系列良定义的计算步骤,逐一执行计算步骤即可得预期的输出。 性质 有穷性 确定性 可行性 自然语言 方法优势 贴近人类思维,易于理解主旨 不便之处 语言描述繁琐,容易产生歧义 使用了“…”等不严谨的描

    2024年02月22日
    浏览(31)
  • 先爬、再行、最后跑,“流程挖掘之父”Wil教授谈流程挖掘的突破之路

    商界有句俗话:“先爬,再行,最后跑”。这正是实现有价值突破的过程。 作者 | Wil van der Aalst教授 海明威在他的某部作品中描绘了这样一幕:有人询问如何走向破产,得到的答案是 “开始时循序渐进,之后突然降临” 。我觉得这句话也同样贴切地描述了大部分技术进步的

    2024年01月23日
    浏览(19)
  • 团队协作:如何利用 Gitee 实现多人合作项目的版本控制

    在软件开发中,有效地管理代码是至关重要的。 Gitee 是一个功能强大的代码托管平台,提供了丰富的工具和功能,使团队能够协作开发,并轻松管理项目。而 Visual Studio Code(VS Code)是一款流行的轻量级代码编辑器,具有丰富的插件生态系统,可帮助开发人员提高效率。本文

    2024年04月25日
    浏览(23)
  • App复杂动画实现——Rive保姆级教程 | 京东云技术团队

    作者:京东物流 沈明亮 在App开发过程中,如果想实现动画效果,可以粗略分为两种方式。一种是直接用代码编写,像平移、旋转等简单的动画效果,都可以这么干,如果稍微复杂点,就会对开发工程师的数学功底、图形图像学功底有很高的要求。 另一种方式,可以让UI同学

    2023年04月26日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包