DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑

这篇具有很好参考价值的文章主要介绍了DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原创  | 文 BFT机器人 

2023年8月14日-15日,第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店成功举办。

在「AIGC 和生成式内容」分论坛上,南洋理工大学科学与工程学院助理教授潘新钢以《Interacitve Point-Dragging Manipulation of Visual Contents》为主题分享了点拖拽的交互式编辑方向研究成果——DragGAN

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑,人工智能

潘新钢指出,当下用户对图像的创作不只停留于粗粒度编辑,而是期待对图像空间属性进行精细化控制。针对这一需求,DragGAN应运而生。通过DragGAN,用户可以选择性地指定一块可编辑区域,确定A、B两点,然后自如地将点A移动到点 B 的位置。

更重要的是,DragGAN能够呈现的不仅仅是最终编辑完成后的图片,而是整个中间过渡的过程,即一个视频或动画的效果,丰富了其可应用场景。

DragGAN这样一个关键点拖拽式的编辑工具对目前大热的文生图的生成方式提供了一个非常好的补充,一经公布就得到了很多的关注和应用。

图像合成中我们遗漏了什么?

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑,人工智能

虽然生成式AI已经能够非常好地根据文字生成图片,但是实现更高级的图像微调仍然面临挑战。比如,我们可以把一段话术输入到Midjourney或者Stable Diffusion中,让它生成一个逼真的狮子。但是很多时候,创作的过程并不会在这里结束。

文字对图像的描述只是粗粒度的,用户更多的希望继续细粒度的去微调图像的内容,例如去改变所生成内容的姿态、转动狮子的头、增大或缩小物体的大小、移动物体的位置、甚至改变狮子的表情。这一系列操作都是关于物体空间属性的精细控制,如何对这些属性进行精细控制仍然面临比较大的挑战。

为了实现更精细的图像微调,用户需要提供更加详细和准确的信息描述,包括对图像中每个物体的具体位置、大小、姿态、纹理和颜色等属性进行描述。这些信息对于生成更加逼真和精确的图像来说非常重要。

然而,要实现高质量的图像微调并不是一件容易的事情。需要大量的数据和算法训练来提高生成器模型的精度和效果,而且还需要开发更加智能和自适应的算法来处理不同类型的输入文本。除此之外,还需要考虑如何在生成过程中保护知识产权和隐私,避免侵权行为的发生。

我们应该如何控制空间属性?

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑,人工智能

为了实现对物体空间属性的精细控制,我们可以通过沿袭文生图的方法,根据文字的描述编辑图片。目前,学术界已经有一些根据文字来改变图片内容的方法,例如让狮子的鼻子向右移动30像素。但是,这种编辑方式存在一些问题。首先,这种文字编辑需要文本模型的支持,以便理解所有可能的物体空间属性编辑方式。除了向右移动之外,还有许多其他方法可以进行编辑。其次,对于语言模型来说,它实际上很难理解30个像素在当前图像中的精确长度。因此,对于目前的文生图语言来说,精确编辑仍然是一个较大的挑战。

什么是交互式点拖动?

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑,人工智能

用户可以通过点击两个关键点来调整图像的空间属性,将红点所代表的图像语义部分移动到蓝点处,实现对图像空间属性的编辑。

这种方式具有以下几个优点:首先,它非常简单易用,只需要两个点的坐标信息;其次,用户可以精确指定抓取点和目标点的位置和距离,从而实现高度精确的编辑和调整;最后,它非常灵活,可以应用于各种不同的图像编辑场景,例如改变图像的大小、姿态、位置等。

点交拖拽的交互式编辑方向的成果——DragGAN

DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑,人工智能

可以看到,用户可以选择性地指定一块可编辑区域,然后通过指定红点和蓝点,算法会将红点移到蓝点的位置。并且值得一提的是,所得到的并不仅仅是最终编辑完成后的图片,而是整个中间过渡的过程。所以,最终呈现出来的是视频或动画的效果,这对于视频或者动画方向来说也具有一定的应用场景。

作者 | 居居手

排版 | 春花

审核 | 猫

若您对该文章内容有任何疑问,请与我们联系,将及时回应。想要了解更多资讯,请关注BFT智能机器人系统~文章来源地址https://www.toymoban.com/news/detail-698076.html

到了这里,关于DragGAN应运而生,未来在4G视频上都可能利用拖拽式编辑的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 探索未来区块链:Mina Protocol 的无限可能

    项目地址:https://gitcode.com/MinaProtocol/mina Mina Protocol 是一个创新的区块链项目,旨在创建一个简洁、可扩展且去中心化的网络。其核心理念是“最小化区块链”,与大多数现有区块链相反,它们往往随着交易数量的增长而变得庞大。Mina 使用了一种称为 Ouroboros Samasika 的共识算法

    2024年04月11日
    浏览(49)
  • 未来的人工智能算法有可能像人类一样学习

    原创 | 文 BFT机器人  记忆对于机器来说,可能和人类一样,感到棘手。为了准确理解为什么人工智能在其认知过程中会出现漏洞,俄亥俄州立大学的电气工程师通过探究机器的“持续学习”过程,从而分析它们整体表现中的影响程度。 “持续学习”是指计算机经过训练,能

    2024年02月15日
    浏览(58)
  • 探索未来:元宇宙与Web3的无限可能

    随着科技的奇迹般发展,互联网已经成为了我们生活的不可分割的一部分。然而,尽管它的便利性和普及性带来了巨大的影响,但我们仍然面临着传统互联网体验的诸多限制。 购物需要不断在实体店与电商平台间切换,教育依然受制于时间与地点的限制。然而,幸运的是,元

    2024年02月13日
    浏览(60)
  • 大数据驱动的智能家居:未来生活的可能性

    随着科技的不断发展,我们的生活也在不断变化。智能家居就是这种变革的一种体现。智能家居通过互联网和智能设备为我们的生活带来了更多的便利和舒适感。然而,智能家居的发展还面临着许多挑战。这篇文章将探讨大数据在智能家居中的应用和未来发展趋势。 智能家居

    2024年04月28日
    浏览(33)
  • 随着ChatGPT、文言一心的大火,未来可能的生活工作方式

            前面的文章笼统的扯了一些ChatGPT、文言一心的差异化,感觉还是不够明白直观。特地找了一份资料,通过基础能力、进阶能力、和一些垂直领域的几百个各种问题,来对比分析两者的回答情况,让大家可以有个更接地气的了解。         由于问题太多,这里实在没

    2024年02月09日
    浏览(56)
  • 蜻蜓优化算法与人工智能的结合:未来的可能性

    蜻蜓优化算法(Hummingbird Optimization Algorithm, HOA)是一种基于自然界现象的优化算法,它模仿了蜻蜓在寻找食物和逃跑时的行为,以解决复杂的优化问题。在过去的几年里,人工智能(AI)技术的发展取得了显著的进展,许多优化算法已经成为解决复杂问题的重要工具。然而,蜻蜓优

    2024年02月22日
    浏览(47)
  • GPT-4:人工智能的新纪元与未来的无限可能

    在人工智能的发展史上,GPT-4的问世标志着一个新的里程碑。作为最新一代的自然语言处理模型,GPT-4不仅在技术上取得了突破,更在应用层面展现了前所未有的潜力。本文将探讨GPT-4的核心技术、应用场景以及它对未来社会的潜在影响。 GPT-4是由OpenAI开发的大型多模态语言模

    2024年02月02日
    浏览(84)
  • 探索未来Web界面的新可能:Open-WebUI

    项目地址:https://gitcode.com/open-webui/open-webui 在Web开发的世界里,高效、灵活且可定制的前端框架是开发者们梦寐以求的工具。今天,我们向您推荐一个名为Open-WebUI的开源项目,它致力于简化Web应用的构建过程,提升用户体验,并提供丰富的功能和组件。 Open-WebUI是一个基于We

    2024年04月24日
    浏览(42)
  • 树莓派小车的4G遥控与视频回传(内网穿透)

    目录 1.项目简介 2.工具 3.步骤 1.手机端 (1)设置ip和端口 (2)遥控界面 2.树莓派 (1)给树莓派配置公网环境 (2)树莓派进行内网穿透 (3)树莓派UDP监听 (4)树莓派视频回传 3.电脑端 (1)电脑进行内网穿透 (2)视频接收代码 基于公网环境进行UDP通信,使用手机APP发出

    2023年04月09日
    浏览(32)
  • 解读Amazon Q | 用AI聊天机器人连接你与未来的无限可能

    授权声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道         在美国当地时间11月28日,亚马逊云科技在拉斯维加斯举办了 re:Invent 大会,大会介绍了许

    2024年02月04日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包