小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见

这篇具有很好参考价值的文章主要介绍了小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

近些年,研究人员们对探索大脑如何解读视觉信息,并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文,通过扩散模型重建视觉影像,给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么,并且帮你画了出来。‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

第一行:人眼所见画面,第二行:AI 重现的画面‭​​‌‌‭​‍

简而言之,AI 利用 fMRI 信号(全称为功能性核磁共振成像)+ Diffusion Model,就能一定程度上实现「读脑术」。‭​​‌‌‭​‍

‭​​‌‌‭​‍不过,如何有效提取并利用 fMRI 信号中隐含的语义和轮廓信息,仍然是业界的一个关键挑战。‭​​‌‌‭​‍

‭​​‌‌‭​‍在上月揭晓的 AAAI 2024 上,‭​​‌‌‭​‍小红书多模态团队‭​​‌‌‭​‍提出了一种新方法——‭​​‌‌‭​‍可控脑视觉扩散模型(Controllable Mind Visual Diffusion Model,CMVDM)‭​​‌‌‭​‍。‭​​‌‌‭​‍该模型能很好地将 fMRI 信号还原为与原始视觉刺激语义属性一致,空间结构对齐的高质量图片,可以使得生成的图像清晰度更高、也更接近人眼所见的原始图像。‭​​‌‌‭​‍

‭​​‌‌‭​‍具体来说,CMVDM 首先使用属性对齐和辅助网络,从 fMRI 数据中提取语义和轮廓信息。其次,引入一个控制模型并结合残差块,充分利用提取的信息进行图像合成,生成与原始视觉刺激在语义内容和轮廓特征上高度相似的高质量图像。‭​​‌‌‭​‍

‭​​‌‌‭​‍通过大量实验,小红书多模态团队证明了 CMVDM 在可视化质量和技术指标上都优于现有的最先进的方法(SOTA)。‭​​‌‌‭​‍此外,团队还发现大脑的高级视觉皮层(HVC) 主要关注视觉刺激的语义信息,而低级视觉皮层(LVC)则主要关注视觉刺激的结构信息。‭​​‌‌‭​‍

‭​​‌‌‭

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

理解人类大脑在观察视觉刺激(例如自然图像)时发生的认知过程,一直是神经科学家的主要关注点。客观的视觉刺激和主观的认知活动,都能在大脑的视觉皮层中引发复杂的神经信号传递,从而为更高层次的认知认知和决策过程奠定基础。随着功能性磁共振成像(fMRI)等技术的进步,人们已经能够以更高的精度和更细的粒度捕获实时的大脑活动信号,从而加速了神经科学研究的进程。然而,对于认知神经科学和下游应用(如脑机接口 BCI)来说,解读和重构这些复杂的信号仍然是一个巨大的挑战。‭​​‌‌‭​‍

‭​​‌‌‭​‍早期尝试在分析视觉任务的大脑活动时,主要关注将在人类受试者的大脑活动与观察到的自然图像相匹配,或者重构简单几何形状的视觉模式。这些探索证明了从大脑信号中获取感知图像的语义信息的可行性,然而它们对未见过的语义类别或复杂的重构任务的泛化能力较差。‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​‌‌‭​‍近期研究在从大脑信号重构视觉刺激方面取得了重要进展。Roman Beliy、Guy Gaziv 等工作能够生成与原始视觉刺激形状相似的图像,但这些图像存在严重的扭曲和模糊问题。文献 IC-GAN, Mind-Vis 等研究采用了常用的生成模型,如生成对抗网络(GAN)或扩散模型,生成的高质量 RGB 图像在语义上与原始视觉刺激保持一致,条件是对应的 fMRI 信号。然而,如图所示,这些方法在位置一致性上存在问题。 总的来说,现有方法未能有效地利用 fMRI 信号中固有的语义和空间特征。‭​​‌‌‭​‍

‭​​‌‌‭​‍为了解决上述问题,我们提出了一种可控脑视觉扩散模型(CMVDM),该模型通过控制网络使扩散模型能够利用提取出可信的语义和轮廓信息,从而完成高度逼真的人类视觉重构。我们在两个数据集上进行了全面的实验来评估 CMVDM 的性能。与现有的方法相比,它在定性和定量结果上都达到了最先进的水平(SOTA),证明了 CMVDM 从 fMRI 信号中解码高质量和可控图像的有效性。‭​​‌‌‭​‍

‭​​‌‌‭

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

CMVDM 框架示意图‭​​‌‌‭​‍

具体来说,我们的方法可以被拆解为:‭​​‌‌‭​‍

  • ‭​​‌‌‭​‍我们首先对一个预训练的潜在扩散模型(Latent Diffusion Model,LDM)进行微调,使用语义对齐损失来提高性能,并预训练一个轮廓提取器来估计 fMRI 数据的准确语义和轮廓信息。‭​​‌‌‭​‍
  • 受 ControlNet 的启发,我们引入一个控制网络,该网络将轮廓信息作为条件输入到预训练的 LDM 中,以指导扩散过程生成所需的图像,这些图像在语义和轮廓信息方面都与原始视觉刺激相匹配。‭​​‌‌‭​‍
  • 此外,我们构建了一个残差模块来提供超出语义和轮廓的信息。‭​​‌‌‭​‍

2.1 预训练 LDM 调整以及语义信息提取‭​​‌‌‭​‍

我们引入在 HCP 数据集上预训练的 fMRI 信号特征提取器以及预训练的 LDM 网络,通过下述监督损失优化 fMRI 信号特征提取器以及 LDM 网络中的 cross attention 层,从而基本实现将脑电信号还原为视觉刺激。‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

我们将上文从 fMRI 信号提取器中得到的特征定义为从 fMRI 信号中提取的语义信息。由于缺乏直接的语义监督,只凭上文提到的监督函数可能无法提供足够的语义信息。因此,我们设计了一个语义对齐损失来进一步增强语义信息和余弦相似度,如下所示。‭​​‌‌‭​‍

‭​​‌‌

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

核心思路是将从 fMRI 信号中提取出的语义信息与 CLIP 处理图片得到的特征进行对齐。可以参考「CMVDM 框架示意图」中的“Finetuning LDM”部分。‭​​‌‌‭​‍

‭​​‌‌‭​‍2.2  轮廓信息提取‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​‌‌‭

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​‌‌‭​‍可以参考「CMVDM 框架示意图」中的 “Silhouette Extraction” 部分。‭​​‌‌‭​‍

‭​​‌‌‭​‍2.3 控制网络训练‭​​‌‌‭​‍

在从 fMRI 信号中获取增强的语义信息和可靠的轮廓信息后,我们使用它们来控制生成的结果。受 ControlNet 的启发,我们设计了一个控制模型来控制生成图像的整体构成。具体来说,我们固定了 LDM 中去噪网络中的所有参数,并将去噪网络的 U-Net 编码器克隆到可训练的控制模块中。控制模块的输入包括噪声潜在代码、语义信息和轮廓信息。此外,为了弥补在属性提取中丢失的 fMRI 信息,我们采用了一个可训练的残差块来添加超出语义和轮廓的信息。推理过程和监督控制模型的训练损失表示为:‭​​‌‌‭​‍

‭​​‌‌‭​‍ 

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​‌‌‭​‍ 

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​‌‌‭​‍ 

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

‭​​‌‌‭

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

我们考虑在不同复杂度数据集上进行视觉信号重建测试,考虑的数据集有两个:Generic Objects Dataset (GOD)、BOLD5000 (Brain, Object, Landscape Dataset)。前者多为受试者对简单图片物体的脑电信号-图片对,后者则增加了场景复杂度和数据量。我们将 CMVDM 与四种 SOTA 方法进行比较:Beliy、Gaziv、IC-GAN、MinD-Vis。为评估模型的性能,在评价指标上我们考虑 N-way 分类准确度(Acc),皮尔森相关系数(PCC),结构相似性度量(SSIM)来评价生成图像的语义准确度和结构相似性。‭​​‌‌‭​‍

‭​​‌‌‭​‍3.1 指标对比结果‭​​‌‌‭​‍

如图所示,实验结果揭示了 CMVDM 总体上显著优于其他方法。与 IC-GAN、MinD-Vis 相比,尽管两者都产生了良好的结果,但 CMVDM 在 SSIM 方面显著优于它们。这表明 CMVDM 生成的图像在物体轮廓和图像结构方面与视觉刺激的相似度更高。Gaziv 在 SSIM 方面取得了显著的结果,但视觉结果表明,Gaziv 方法无法生成高保真度的图像。‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

3.2 可视化对比结果‭​​‌‌‭​‍

  • GOD 上的可视化对比‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

  • BOLD5000 对比结果‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

3.3 实验分析‭​​‌‌‭​‍

本工作对提出的损失函数与引入的模块进行了消融实验,并结合不同视觉皮层的脑电信号进行实验对比与可视化验证,证明了所提出方法的有效性。‭​​‌‌‭​‍

  • ‭​​‌‌‭​‍消融实验指标分析‭​​‌‌‭​‍

消融实验表明,CMVDM 在引入了新的对齐损失与结构控制模块后实现了对原始刺激更高的语义准确度和结构相似性。‭​​‌‌‭​‍‭​​‌‌‭

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

  • 重建结果一致性可视化分析‭​​‌‌‭​‍

我们的方法相比于 MinD-Vis 在生成一致性上更佳,表现出了对生成图片结构的有效控制。‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

  • 不同视觉皮层区域信号的重建分析‭​​‌‌‭​‍

V1,V2, V3 均属于低级视觉皮层 LVC 的主要组成区域,FFA,PPA,LOC 则属于高级视觉皮层 HVC 的主要组成区域,VC 代表全视觉皮层‭​​‌‌‭​‍

实验结果与可视化表明:LVC 在结构指标上(如 SSIM )表现优于 HVC,表明低级视觉皮层捕获视觉信息的结构等低级特征;HVC 在语义指标上(如 Acc )表现明显优于 LVC,表明高级视觉皮层用于处理更抽象的语义特征;借助全视觉皮层 VC 的信号,我们的方法可以有效重建出语义、结构与原始视觉刺激相近的高质量图像。‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

我们提出了可控脑视觉扩散模型(CMVDM)。这项工作将脑电信号重建问题分解为特征提取和图像重建两个子任务。通过采取自监督与半监督方法,我们分别提取信号的语义和结构特征,并利用预训练扩散模型的丰富知识进行多条件视觉信号重建,实现了与原始视觉刺激语义匹配且结构相似的高质量图像生成。‭​​‌‌‭​‍

‭​​‌‌‭​‍更进一步,CMVDM 在脑电信号重建相关的数据集上取得了最先进成果(SOTA),展现了其在复杂场景视觉信号可控重建方面的良好泛化性,突出其在神经科学和计算机视觉交叉领域的创新性和实用性。本文提出的 Diffusion-based 生成方案可拓展至泛化的条件可控生成领域,为小红书发布端文生图新玩法提供更多方案。‭​​‌‌‭​‍

‭​​‌‌‭​‍论文地址:‭​​‌‌‭​‍https://arxiv.org/pdf/2305.10135.pdf‭​​‌‌‭​‍

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

  • 曾博涵

现为北京航空航天大学硕士研究生,小红书创作发布团队实习生,曾在 ECCV、CVPR、NeurIPS 等发表论文。主要研究方向为计算机视觉生成。

  • 李尚霖

现为北京航空航天大学硕士研究生,小红书创作发布团队实习生,曾在 AAAI 发表多篇论文。主要研究方向为计算机视觉生成、联邦学习等。

  • 莱戈(贾一亮)

小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文,曾获 YouTube-VOS 视频分割竞赛 Top-3 排名,曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向:目标跟踪、视频分割、多模态分类/检索等。

  • 汤神(田不易)

小红书创作发布团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录,ICCV Wider Challenge 人脸检测国际竞赛冠军,ICCV VOT 单目标跟踪冠军,CVPR UG2+ 亚军。

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型

NLP 算法工程师-智能创作

岗位职责:

基于高质量的小红书内容生态,研发实用领先的 NLP 智能创作技术,技术栈包括关键词提取、情感分析、上下文理解、命名实体识别、词性标注、句法分析、机器翻译、文本摘要、问答系统等,广泛支持智能内容创作需求,创造小红书独有的产品用户价值。

任职资格:

1. 熟悉语言知识表示、多模态生成模型及 NLP 智能创作,在以下一个或多个领域有深入的研究及落地经验,包括但不限于:NLP 生成、文案创作、多轮对话、模型压缩等

2. 具有优秀的编程基础及动手能力、良好的工作习惯,丰富的业务落地实战经验,优秀的快速学习能力

3. 敢于应对实际挑战,有坚韧的品质、优秀的自驱能力,善于主动沟通表达和团队协作

4. 发表 ML/NLP 等顶会/期刊论文、取得权威竞赛 Top 名次、ACM 编程国际竞赛  Top 成绩者优先

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 tangshen@xiaohongshu.com。

算法工程师-社区生态

岗位职责:

  • 职责包括但不限于图文、视频等多模态内容的分类、检索、去重等工作,旨在优化平台内容生态、提升内容质量和分发效率,提高用户体验;

  • 负责 CV 相关算法研发,包括但不限于:图像/视频分类、图像检测/分割、视频理解、人脸识别、OCR、自监督学习等;

  • 负责 NLP 相关算法研发,包括但不限于:文本分析、语义分析、事件提取、分类、聚类、情感、问答、关系抽取、知识图谱等;

  • 完成算法的快速实现以及大规模工业化部署,参与创新性算法的研究以及开发工作;提供系统解决方案,打造可复用的社区业务平台能力,提升社区核心服务稳定性; 有互联网内容生态相关技术从业经验者优先。

任职资格:

  • 计算机/电子信息/自动控制/软件工程/数学等相关专业,硕士及以上学历

  • 优秀的分析、解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证;

  • 熟练掌握 PyTorch/TensorFlow 等深度学习框架中的至少一种;

  • 具备优秀的编程能力和经验,熟悉 Python、C/C++、Java 等编程语言,具有扎实的数据结构和算法功底;

  • 具备优秀的研究和创新能力,在 CVPR/ICCV/ECCV 与 ICML/ACL/EMNLP/KDD/AAAI 等计算机视觉 &自然语言处理 &机器学习领域国际顶会或顶刊上发表过论文或 workshop 获奖者优先; 在国际竞赛(如: ACM ICPC, Kaggle, KDD Cup 等)中获得过优异成绩者优先;

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 laige@xiaohongshu.com。

小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见,人工智能,计算机视觉,深度学习,AAAI,CV,脑机接口,扩散模型文章来源地址https://www.toymoban.com/news/detail-819453.html

到了这里,关于小红书多模态团队建立新「扩散模型」:解码脑电波,高清还原人眼所见的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 思维映像化:AI读心术惊艳亮相NeurIPS大会!模型精准翻译脑电波

    我们今天的人工智能 (AI) 已经取得了哪些显著的进展呢? 从AI绘图、AI作曲、AI视频生成、AI写小说、AI主播等等,我们似乎已经见识了许多令人惊叹的应用。 然而,在最近的NeurIPS大会上,来自GrapheneX-UTS的研究人员带来了一项更加引人瞩目的技术——AI读心术BrainGPT! 论文地址

    2024年02月03日
    浏览(42)
  • AI绘画与CV多模态能力的起源:从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer

    2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、Faster R-CNN 2016 YOLO、SSD 2017 Mask R-CNN、YOLOv2 2018 YOLOv3 随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End

    2024年02月11日
    浏览(38)
  • 每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

    Orca-Math 是微软研究院发布的数学推理模型, 该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。 微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧! 3 月 11 日-3 月 15 日,

    2024年03月22日
    浏览(54)
  • 画质提升+带宽优化,小红书音视频团队端云结合超分落地实践

    随着视频业务和短视频播放规模不断增长,小红书一直致力于研究:如何在保证提升用户体验质量的同时降低视频带宽成本? 在近日结束的音视频技术大会「LiveVideoStackCon 2023」上海站中,小红书音视频架构视频图像处理算法负责人 剑寒 向大家分享了一项创新技术—— 基于

    2024年02月12日
    浏览(54)
  • 服装行业多模态算法个性化产品定制方案 | 京东云技术团队

    一、项目背景 AI赋能服装设计师,设计好看、好穿、好卖的服装 传统服装行业痛点 • 设计师无法准确捕捉市场趋势,抓住中国潮流 • 上新周期长,高库存滞销风险大 • 基本款居多,难以满足消费者个性化需求 解决方案 • GPT+数据洞察,快速反应市场时尚流行趋势 • 柔性

    2024年02月14日
    浏览(52)
  • 【扩散模型】1、扩散模型 | 到底什么是扩散模型?

    参考论文:A Survey on Generative Diffusion Model github:https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model 1.1 现有生成模型简介 已经有大量的方法证明深度生成模型能够模拟人类的想象思维,生成人类难以分辨真伪的内容,主要方法如下: 1、GAN:用神经网络训练生成器和判别器 G

    2024年02月09日
    浏览(43)
  • 生成模型(四):扩散模型02【第一单元:扩散模型简介】

    欢迎来到 Hugging Face 扩散模型课程第一单元!在本单元中,你将学习有关扩散模型如何工作的基础知识,以及如何使用 🤗 diffusers 库。 扩散模型是「生成模型」算法家族的新成员通过学习给定的训练样本,生成模型可以学会如何  生成  数据,比如生成图片或者声音。一个好

    2024年02月13日
    浏览(65)
  • 【AIGC】2、扩散模型 | 到底什么是扩散模型?

    参考论文:A Survey on Generative Diffusion Model github:https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model 1.1 现有生成模型简介 已经有大量的方法证明深度生成模型能够模拟人类的想象思维,生成人类难以分辨真伪的内容,主要方法如下: 1、GAN:用神经网络训练生成器和判别器 G

    2024年02月10日
    浏览(105)
  • 【扩散模型】2、DDPM | 去噪扩散概率模型开山之作

    论文:Denoising Diffusion Probabilistic Models 代码:https://github.com/hojonathanho/diffusion stable diffusion 代码实现:https://github.com/CompVis/stable-diffusion/blob/main/ldm/models/diffusion/ddpm.py 出处:伯克利 时间:2020.06 假设均值为 0,方差为 1 的高斯分布,则对应的噪声示例如下,就是在 0 附近分布的

    2024年02月07日
    浏览(43)
  • 番外篇Diffusion&Stable Diffusion扩散模型与稳定扩散模型

    本篇文章为阅读笔记,,主要内容围绕扩散模型和稳定扩散模型展开,介绍了kl loss、vae模型的损失函数以及变分下限作为扩展部分。扩散模型是一种生成模型,定义了一个逐渐扩散的马尔科夫链,逐渐项数据添加噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。稳

    2024年02月03日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包