Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

这篇具有很好参考价值的文章主要介绍了Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

论文标题:ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images

地址:ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images | Briefings in Bioinformatics | Oxford Academic

代码:https://github.com/zhang-xuan1314/ABC-Net/

现有的OCSR方法由于其恢复精度较差,远远低于现实要求的期望。为能产生SMILES,模型需要识别原子和键,并以特定的顺序排列原子。这极大地增加了识别难度,导致这种类型的模型的数据效率非常低,需要百万级的训练数据来达到良好的性能。此外,随着SMILES长度的增加,模型性能会迅速恶化

数据集:ChEMBL database,使用RDKit实现SMILES筛选。分子中超过50个非氢原子被剔除。随机抽取10万种化合物。

利用分治原则,将识别分子的问题转化为识别原子和键的问题:(A)原子和键的检测、(B)原子和键的辅助信息识别、(C)分子的重建

在模型训练阶段,使用多任务训练方法同时训练原子和键的检测任务以及其他辅助属性识别任务

一、模型:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

将预测目标热图中的所有正像素点设为1,所有正像素点的一阶邻居设为0.95,其他位置设为0。当两个键中心在热图中太近甚至重叠时,这可能会导致键缺失,在分子图像中,重叠的键必须有不同的方向才能被区分。因此,将0-360个◦均匀地分成60个间隔(60个类别),一次进行60个二元分类任务,以确定在检测位置上是否有一个特定角度的键。在推理阶段,如下图D所示,通过在检测到的键位置搜索大于一定阈值的局部最大值来检测属于特定角度类别的键,对于相反的角度需要非最大抑制,因为对于相反角度的非立体键会有两个正响应,这代表相同的键。

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

重构算法结合神经网络输出构建graph输出

通过寻找原子和键热图中的峰点分别来检测原子和键中心。然后,通过寻找沿角度类别轴的局部最大值,可以在每个键中心检测到不同角度类别的键。根据指定的键中心和键角计算出键的长度,对于每个键,可以根据键的中心位置、键角和键长找到两个与这个键相连的原子。原子和键就可以组装成一个分子图。对于其他原子和键的性质,如原子的类型和键的类型,它们可以从原子和键的性质预测图的相应位置推断出来。

二、原子探测

Axy为点(x,y)是关键点的概率。

其中:S为下采样因子,w/h为原始图像。

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

 目标损失函数:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

E是Image中原子关键点的数量,α是focal loss的超参数(所有实验α设为2),在推理阶段,热图中的峰是被检测到的原子中心,可通过MaxPooling2D实现。

原子检测后,可以在检测到的原子位置直接预测原子性质,点(x,y)为i类型原子的概率Txy,属性预测损失的计算不仅有ground truth,还有其邻居节点。目标函数为:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

三、键探测

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

预测下采样图像中每个像素成为键中心的概率。将预测目标热图B∈[0,1]中的所有正点为1,一阶邻居设为0.95,其他位置设为0。然后使用惩罚减少的像素级二值焦损失作为训练目标:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

F为Image中的键数,τ为focal loss的超参数。
利用热图O∈[0,1]检测B中检测到的候选键位置具有不同角度的键,60个二元分类任务,以确定在指定的角度是否存在键:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

将预测目标热图B中的所有像素设为1,将预测目标热图中所有正点的一阶邻域设为0.95,其他位置设为0,然后采用与方程(3)相似的惩罚减少像素focal loss。

在推理阶段,首先通过 2D max-pooling从heatmap B中检测到候选键的位置,将角度分类的局部最大值作为键角。键的性质,如键的类型和键长的确定遵循与原子性质相同的策略。注意,由于键的长度属性是一个回归任务,使用MAE作为损失函数

四、训练过程

1、final loss:在训练过程中自动学习任务权重。 

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

2、Evaluation metrics

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

 其中Ntp、Ndetected和Ngt分别为真阳性、检测和ground truth的数量。

键长任务损失:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

M为对应的任务样本总数。

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

Ntp和Ntn分别为真正数和真负数,N为对应的任务样本的总数。

评估最终的分子结构识别性能,使用了两个指标:准确性(Smiles与预测字符串的)和谷本相似度:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

3、训练设置

需要化学结构的二维图像标记像素坐标,以及每个原子和键的相关属性。据我们所知,这种类型的数据集是不可用的,并且手动构建一个包含数千张图像的标记数据集是不可行的。分别用RDKit和Indigo的api分子图像进行描述,可以用于在绘图过程中标记图像。

进一步探索了不同的描述设置:改变原子标记模式,改变键厚,改变分子的取向,改变芳香度标记等。
数据集按8:1:1的比例分成三组(训练、验证和测试)

五、性能分析

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

每个任务的不同类别下都取得了良好的性能。不同原子的检测性能为>0.98,表明该模型在寻找原子物体方面非常有效。对于普通键,该模型表现良好,但对立体化学键略有下降。在原子电荷方面,ABCNet模型取得了非常令人满意的性能,超过0.99。

与OSRA、MolVec、Img2mol进行对比:

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

为评估ABCNet模型的泛化能力,进一步利用了UOB数据集作为外部测试数据集。图像的平均分辨率为762×412px,模型可以获得很好的性能,准确率超过95%

训练数据的数量对模型性能的影响。模型被训练来检测分子图像的组成元素(原子和键)。通常,在一幅图像中会有几十个原子和键。因此,训练样本大大超过了图像的数量。

当模型数据量达到80 000时,模型性能达到~95%。随着数据数量的增加,模型性能增长变慢,需要大量广泛的数据样本来获得进一步的微不足道的改进,这是耗时和不必要的。

Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

分子图像噪声的影响。使用二值化图像作为输入,椒盐噪声是模拟实际噪声的最佳方法。

P是背景像素翻转到前景像素的概率,另一个参数为q是相反过程的概率。模型的性能随着噪声水平的提高而下降(上图c),但是如上图d所示,即使在严重的噪声下,模型也能正确识别分子结构的大部分。文章来源地址https://www.toymoban.com/news/detail-406622.html

到了这里,关于Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于结点电压法的配电网状态估计算法matlab仿真

    目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 结点电压法的基本原理 4.2 结点电压法在配电网状态估计中的应用 5.完整程序        基于结点电压法的配电网状态估计算法.对配电网实施有效控制和操作的前提是实时数据库中数据的可靠性

    2024年02月20日
    浏览(33)
  • 基于熵权法的topsis分析(包含matlab源码以及实例)

                 目录 一、算法简述          1.topsis分析法          2.熵权法          3.两种算法的结合 二、算法步骤          1.判断指标类型          2.数据正向化          3.正向化矩阵标准化          4.计算概率矩阵P          5.计算各个指标的信息熵

    2024年01月16日
    浏览(31)
  • 综合评价算法 | Matlab实现基于TOPSIS法的综合评价算法

    效果一览 文章概述 综合评价算法 | Matlab实现基于TOPSIS法的综合评价算法 研究内容 C.L.Hwang 和 K.Yoon 于1981年首次提出 TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution)。TOPSIS 法是一种常用的组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方

    2024年02月12日
    浏览(76)
  • 基于FPGA的颜色模型和帧差法的目标检测跟踪算法实现

    目录 一、理论基础 二、核心程序 三、仿真结论          目标跟踪中,基础的差分法,存在较大的缺陷,比如目标静止状态,那么就无法检测,如果场景中,运动的物体非常多,那么就会出现检测混乱的情况,如果摄像机存在较为剧烈的抖动,同样会导致检测失败。然后

    2024年02月07日
    浏览(37)
  • 【Sklearn】基于线性判别法的数据分类预测(Excel可直接替换数据)

    线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的模式识别和分类方法,它的目标是找到一个投影,将数据投影到低维空间,使得不同类别的样本在投影后的空间中有最大的类别间距,同时最小化类内方差。 模型原理如下: 假设有d维的数据,分为K个类别。我们

    2024年02月12日
    浏览(27)
  • 基于Smiulink仿真的升降压电路和扫频法的PI参数自动整定

            在控制系统控制器设计过程中,PID控制作为基础的控制方法,得到了广泛的应用。常用的经验整定方法虽然使用方便,但是需要一定的经验,不能快速的实现对系统的有效控制。因此,本文利用MATLAB/ Simulink 中自带的 PID Tuner 模块,基于 扫频法 得到的 升降压电路

    2023年04月17日
    浏览(24)
  • 基于前推回代法的连续潮流计算研究【IEEE33节点】(Matlab代码实现)

      💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码实现 目前的

    2024年02月07日
    浏览(72)
  • 【状态估计】基于UKF法、AUKF法的电力系统三相状态估计研究(Matlab代码实现)

     💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码及数据 基于

    2024年02月17日
    浏览(39)
  • 【纳什博弈、ADMM】基于纳什博弈和交替方向乘子法的多微网主体能源共享研究(Matlab代码实现)

    💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 1.1 纳什谈判的基本理论 1.2 基于ADMM的微电网群分布式能量

    2024年02月06日
    浏览(29)
  • Unity 2022 Build-in、URP、HDRP对比

    参考

    2024年02月14日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包