从2D到3D,计算机视觉的ChatGPT何时到来?

这篇具有很好参考价值的文章主要介绍了从2D到3D,计算机视觉的ChatGPT何时到来?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ChatGPT 及其改进型 GPT4通过一个单一模型解决了几乎所有与文本相关的任务,彻底改变了 NLP 领域。然而,这样的一个模型在计算机视觉方面并不存在,特别是对于3D视觉。本文首先从模型的角度简要介绍了深度学习在文本、图像和3D领域的进展。此外,本文还从数据的角度进一步讨论了 AIGC 是如何发展的。在此基础上,本文从数据的角度对 AIGC在3D领域的发展进行了展望。

介绍

生成人工智能(AIGC)在过去几年中取得了显著进展,其中 ChatGPT 是一个现象级产品,吸引了人们的极大关注。ChatGPT 的出现在很大程度上归因于大规模的预训练模型,如BERT 和 GPT 这些模型不仅在自然语言处理任务中表现良好,而且为计算机视觉和其他领域提供了强有力的支持。

在文本领域,以 ChatGPT 为代表的大规模深度学习模型,在自然语言处理(NLP)任务中取得了革命性的成果。他们使用大量的文本数据进行预训练,从而实现对自然语言的高水平理解和生成。这些模型已被广泛用于机器翻译、文本摘要、问答系统等任务,并在各种评估中显示出超越人类的性能。这些成功的应用为研究人员提供了新的思路,进一步推动了生成性人工智能在文本领域的发展。同时,在图像领域,大规模深度学习模型也取得了重大突破。这些模型使用大量的图像数据进行训练,为计算机视觉任务提供了有力的支持。他们在图像识别、目标检测、语义分割等领域取得了优异的成果,引领了计算机视觉领域的研究方向。生成式人工智能在图像领域也取得了显著的突破,为人工智能在图像处理和分析中的应用奠定了坚实的基础。与2D图像相比,3D领域的进展相对滞后。3D模型在模拟现实世界、数字媒体和虚拟现实方面具有巨大的潜力。虽然文本到图像可以生成高分辨率、精致的图像,但文本到3D模型还无法获得相同的结果。在NeRF的帮助下,3D领域可以采取另一种方法,使用从文本到图像的强大先验来帮助训练文本到3D模型。此外,一些基于深度学习的3D模型重建和生成算法已经取得了巨大进展,为未来3D领域的大规模预训练模型奠定了基础。总体而言,与文本和图像字段相比,3D领域在数据规模、计算复杂性和模型表示方面面临更多挑战。 本文的其余部分组织如下。第二部分从模型的角度讨论了深度学习的发展。此外,第三节进一步从数据的角度介绍了 AIGC 的发展。在此基础上,第四节从数据的角度展望了 AIGC 在3D 领域的发展前景。

模型角度

深度学习的三个阶段。自2012年AlexNet成功以来,深度学习发展迅速,堪称数据驱动人工智能的典范。影响深度学习发展的三个重要因素是数据、算力和模型。在这三个因素的演变过程中,深度学习根据其表现大致可以分为三个阶段:任务特定阶段、微调阶段和一般任务阶段,如下图1所示。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.1. 深度学习的三个阶段: 文本、图像和三维,以及它们的代表作

首先,在特定任务阶段,由于数据量有限,采用了具有强归纳偏差的模型,如卷积神经网络和递归神经网络,以及监督学习。这些模型可以在少量数据上获得良好的结果。

然后,在大模型预训练和微调阶段,训练数据变得更加复杂和广泛,少数模型参数和网络层无法再学习复杂和广泛的数据分布。主流模型结构也成为了全局依赖的transformer,使用自监督学习,首先学习复杂特征,然后进行微调以解决下游任务。

目前,文本已进入一般任务阶段。有了更多的数据和超大模型,只需特定的提示就可以学习更接近现实的数据分布,从而完成免费的内容生成。这一阶段的代表作包括文本领域的GPT系列。在图像领域,还没有针对大型模型的统一CV领域任务,但Dalle已经显示出强大的文本提示2D图像生成能力,SAM(Segment Anything) 已经在单个分割任务中显示出主导力。

「文本」。随着深度学习的发展,自然语言处理(NLP)领域已经进入了超大型模型时代。由 Google 引入的transformer模型是当前大型模型的基础网络架构,OpenAI 在2022年11月发布的 ChatGPT 是一个对话类型的超大型语言模型,使用生成式预训练transformer(GPT)来处理序列数据,具有语言理解和文本生成能力。它可以通过大量的语料库训练模型,实现与真人几乎无法区分的聊天场景。ChatGPT 不仅可以用作聊天机器人,还可以用于写电子邮件、视频脚本、文案、翻译和编码等任务。自然语言处理领域是超大型模型时代的前沿。

「图像」。在 GPT-3之上,OpenAI 发布了大规模的图像生成模型 DALL-E,它可以从自然语言描述中生成数字图像,称为“prompts”。后来,OpenAI 发布了 DALL-E2,后者的设计目的是生成更真实的图像和更高的分辨率,具有3.5B的参数量。它可以包含概念、属性和样式。该模型在计算机视觉领域取得了相当大的成果,并在生成质量方面取得了显著提高。最近,Meta发布了一个名为“Segment Anything”的项目,该项目引入了一个称为可提示分割的新任务以及一个新的大型分割数据集。由此产生的模型称为分割任何物体模型(SAM)模拟了自然语言处理中的 GPT-3,采用快速工程方法使其适应各种下游任务,这表明了令人印象深刻的zero-shot转换性能。许多工作评估了它的推广能力或鲁棒性。此外,一些工作还将 SAM 与其他模型相结合,实现了图像编辑和修改,这表明 SAM 也可以帮助生成任务。

3D领域目前正在探索预训练阶段。3D深度学习领域的研究受到计算能力和数据访问的限制,落后于图像和文本这是因为3D数据比图像和文本更复杂、更稀缺、更多样化。现有的3D内容创建方法通常需要大量的专业知识和人力,这可能非常耗时且昂贵的。在研究如何自动生成3D数据方面进行了许多开创性的尝试。然而,大模型生成的3D样本的质量和泛化是远不如其在文本和图像方面的效果的。

大模型(包括训练方法和模型结构)的发展取决于两个主要因素: 算力和数据量。这也间接地影响了大模型的发展,这可以参考自然语言处理领域中大模型的发展历史,如下图2所示。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.2.从训练数据量和模型参数量的角度,分析了2018-2021年自然语言处理大型模型的开发过程。

模型参数量和训练数据的数量受到计算能力的限制。通过参考摩尔定律(如下图3所示) ,我们可以假设和预测计算能力的发展。那么如何解决数据问题,换句话说,3D数据的爆炸何时到来?

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.3.对数图显示了从1970年到2020年,微芯片中晶体管数量几乎每两年翻一番的时间线;Moore’s Law。

数据角度

在讨论3D 领域的数据爆炸问题之前,让我们先来看看 PGC 和 UGC 是如何促进 AIGC 的。PGC (专业生成内容)是指由专业人士、机构或公司制作和发布的内容。这些内容通常具有高质量、可靠性和权威性,如新闻报道、电影、电视节目等。用户生成内容(UGC)是由普通用户或社区成员创建和共享的内容。

与PGC相比,UGC的质量参差不齐,但它为普通用户提供了一个表达自己意见和想法的平台。典型的UGC平台包括社交媒体、博客、论坛等。AIGC(人工智能生成的内容)指由人工智能算法和系统创建的内容。AIGC涵盖了文本、图像、音乐等多种内容类型,其质量随着技术的进步而逐渐提高,逐渐接近或甚至超过了人类创造的水平。

PGC、UGC和AIGC之间的关系是互补的。PGC、UGC和AIGC各有其独特的优势和局限性。PGC具有权威性和可靠性,但创建成本相对较高,更新速度相对较慢。UGC具有广泛的范围和多样性,但质量参差不齐。AIGC的发展需要时间,但生成型人工智能成熟后,可以在短时间内生成意想不到的高质量内容。

这三者在文本和图像领域的出现顺序是PGC、UGC和AIGC。在互联网发展之初,内容主要由专业人士和机构创建,即PGC。随着互联网技术和平台的发展,用户开始参与内容创作,形成UGC。近年来,随着人工智能技术的快速发展,人工智能逐渐进入内容创作,形成了AIGC。三种数据生成方法如下图4所示。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.4.三种数据生成方法,PGC和UGC通过提供训练数据来促进AIGC

AIGC 在文本和图像领域的出现在很大程度上取决于 PGC 和 UGC。从技术角度来看,AIGC 的发展确实得益于 PGC 和 UGC 提供的大量数据。在人工智能生成内容的过程中,PGC 和 UGC 为人工智能提供了丰富的样本和知识,帮助人工智能学习不同类型的内容和风格。从这个意义上说,AIGC 的发展取决于 PGC 和 UGC 的存在。

展望

2010年以来的数据爆炸

物联网设备的出现,尤其是智能手机的出现,极大地增加了网络文本和图像数据在几个方面的需求。下图5显示了自2010年以来创建、消耗和存储数据的数量。社交媒体的兴起是主要因素之一。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.5.2010年至2020年创建、消费和存储的数据量,以及到2025年的预测。

在iPhone 4发布时,诸如脸书、推特和Instagram越来越受欢迎,智能手机的便携性和功能也越来越强大,使其成为用户在这些平台上交流和共享内容的理想设备,从而使社交媒体平台上对文本和图像数据的需求与日俱增。不断升级的摄像头技术让手机用户可以轻松拍摄高质量的照片和视频,让用户上传和分享更多社交媒体、照片共享平台和其他在线服务上的图像数据。

应用程序商店的扩张也是一个重要因素。随着智能手机的发展,应用程序商店的生态系统得以进一步发展,更多开发商为手机开发应用程序,包括社交媒体应用程序、照片编辑应用程序、游戏、新闻阅读器等,令用户更容易接收和分享文字和图像资料,并进一步增加对这些资料的需求。最后,随着对高质量文本和图像数据的需求日益增加,内容创作者和公司开始投入更多的精力和资源来创作和发布这类内容,导致文本和图像数据的数量迅速增加。总的来说,智能手机的出现及其创新和改进大大增加了对文本和图像数据的需求,这在一定程度上促进了这些领域基础模型的发展。

3D领域正在等待它自己的"iPhone4"

在技术领域,iPhone 4不仅是一款手机,也是一个重要的里程碑。它的出现使全球观众感到惊讶,并改变了智能手机行业的格局。如今,3D领域也需要一款具有同等影响力的产品来推动行业的发展和普及。我们正在寻找期待3D产品的诞生,它可以引领潮流,让人们重新思考这项技术的价值。在在过去的几年里,3D技术取得了巨大的进步,但与主流技术在市场接受度和广泛应用方面仍有一定的距离。可以从以下几个方面思考3D领域如何迎接它的"iPhone 4"。

首先,3D 产品需要有更强的可用性。正如 iPhone 4改进了触摸屏、操作系统和用户界面,使手机更加直观和易于使用,3D 技术也需要在这一领域取得突破。硬件和软件都需要为用户提供直观的操作体验,降低学习成本,使更多的人更容易开始。其次,创新的业务模型和应用场景至关重要。

IPhone 4为开发者创造了一个巨大的应用市场,吸引了无数精彩应用的诞生。3D 领域也需要找到类似的突破,这样3D 技术就不再局限于某些特定场景,而是成为我们日常生活中不可或缺的一部分。最后,3D 领域需要一个领先的企业来领导创新。随着iPhone 4的成功,苹果已经成为智能手机市场的领导者。3D 领域还需要一个有远见和实力的企业来推动技术进步和市场竞争。这样的企业不仅能引领市场潮流,而且能带动整个行业的技术创新和应用拓展。总体而言,在3D 领域,一个受欢迎的消费者层面的产品有望促进对3D 数据的需求,从而进一步推动3D 领域深度学习的发展。

结论

鉴于ChatGPT在NLP领域占据主导地位,可以用一个模型解决几乎所有的文本任务,这项工作简要介绍了这种模型何时可能进入计算机视觉领域,从2D视觉到3D视觉。

参考

[1]. When ChatGPT for Computer Vision Will Come? From 2D to 3D

更多精彩内容,请关注公众号

摘要

ChatGPT 及其改进型 GPT4通过一个单一模型解决了几乎所有与文本相关的任务,彻底改变了 NLP 领域。然而,这样的一个模型在计算机视觉方面并不存在,特别是对于3D视觉。本文首先从模型的角度简要介绍了深度学习在文本、图像和3D领域的进展。此外,本文还从数据的角度进一步讨论了 AIGC 是如何发展的。在此基础上,本文从数据的角度对 AIGC在3D领域的发展进行了展望。

介绍

生成人工智能(AIGC)在过去几年中取得了显著进展,其中 ChatGPT 是一个现象级产品,吸引了人们的极大关注。ChatGPT 的出现在很大程度上归因于大规模的预训练模型,如BERT 和 GPT 这些模型不仅在自然语言处理任务中表现良好,而且为计算机视觉和其他领域提供了强有力的支持。

在文本领域,以 ChatGPT 为代表的大规模深度学习模型,在自然语言处理(NLP)任务中取得了革命性的成果。他们使用大量的文本数据进行预训练,从而实现对自然语言的高水平理解和生成。这些模型已被广泛用于机器翻译、文本摘要、问答系统等任务,并在各种评估中显示出超越人类的性能。这些成功的应用为研究人员提供了新的思路,进一步推动了生成性人工智能在文本领域的发展。同时,在图像领域,大规模深度学习模型也取得了重大突破。这些模型使用大量的图像数据进行训练,为计算机视觉任务提供了有力的支持。他们在图像识别、目标检测、语义分割等领域取得了优异的成果,引领了计算机视觉领域的研究方向。生成式人工智能在图像领域也取得了显著的突破,为人工智能在图像处理和分析中的应用奠定了坚实的基础。与2D图像相比,3D领域的进展相对滞后。3D模型在模拟现实世界、数字媒体和虚拟现实方面具有巨大的潜力。虽然文本到图像可以生成高分辨率、精致的图像,但文本到3D模型还无法获得相同的结果。在NeRF的帮助下,3D领域可以采取另一种方法,使用从文本到图像的强大先验来帮助训练文本到3D模型。此外,一些基于深度学习的3D模型重建和生成算法已经取得了巨大进展,为未来3D领域的大规模预训练模型奠定了基础。总体而言,与文本和图像字段相比,3D领域在数据规模、计算复杂性和模型表示方面面临更多挑战。 本文的其余部分组织如下。第二部分从模型的角度讨论了深度学习的发展。此外,第三节进一步从数据的角度介绍了 AIGC 的发展。在此基础上,第四节从数据的角度展望了 AIGC 在3D 领域的发展前景。

模型角度

深度学习的三个阶段。自2012年AlexNet成功以来,深度学习发展迅速,堪称数据驱动人工智能的典范。影响深度学习发展的三个重要因素是数据、算力和模型。在这三个因素的演变过程中,深度学习根据其表现大致可以分为三个阶段:任务特定阶段、微调阶段和一般任务阶段,如下图1所示。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.1. 深度学习的三个阶段: 文本、图像和三维,以及它们的代表作

首先,在特定任务阶段,由于数据量有限,采用了具有强归纳偏差的模型,如卷积神经网络和递归神经网络,以及监督学习。这些模型可以在少量数据上获得良好的结果。

然后,在大模型预训练和微调阶段,训练数据变得更加复杂和广泛,少数模型参数和网络层无法再学习复杂和广泛的数据分布。主流模型结构也成为了全局依赖的transformer,使用自监督学习,首先学习复杂特征,然后进行微调以解决下游任务。

目前,文本已进入一般任务阶段。有了更多的数据和超大模型,只需特定的提示就可以学习更接近现实的数据分布,从而完成免费的内容生成。这一阶段的代表作包括文本领域的GPT系列。在图像领域,还没有针对大型模型的统一CV领域任务,但Dalle已经显示出强大的文本提示2D图像生成能力,SAM(Segment Anything) 已经在单个分割任务中显示出主导力。

「文本」。随着深度学习的发展,自然语言处理(NLP)领域已经进入了超大型模型时代。由 Google 引入的transformer模型是当前大型模型的基础网络架构,OpenAI 在2022年11月发布的 ChatGPT 是一个对话类型的超大型语言模型,使用生成式预训练transformer(GPT)来处理序列数据,具有语言理解和文本生成能力。它可以通过大量的语料库训练模型,实现与真人几乎无法区分的聊天场景。ChatGPT 不仅可以用作聊天机器人,还可以用于写电子邮件、视频脚本、文案、翻译和编码等任务。自然语言处理领域是超大型模型时代的前沿。

「图像」。在 GPT-3之上,OpenAI 发布了大规模的图像生成模型 DALL-E,它可以从自然语言描述中生成数字图像,称为“prompts”。后来,OpenAI 发布了 DALL-E2,后者的设计目的是生成更真实的图像和更高的分辨率,具有3.5B的参数量。它可以包含概念、属性和样式。该模型在计算机视觉领域取得了相当大的成果,并在生成质量方面取得了显著提高。最近,Meta发布了一个名为“Segment Anything”的项目,该项目引入了一个称为可提示分割的新任务以及一个新的大型分割数据集。由此产生的模型称为分割任何物体模型(SAM)模拟了自然语言处理中的 GPT-3,采用快速工程方法使其适应各种下游任务,这表明了令人印象深刻的zero-shot转换性能。许多工作评估了它的推广能力或鲁棒性。此外,一些工作还将 SAM 与其他模型相结合,实现了图像编辑和修改,这表明 SAM 也可以帮助生成任务。

3D领域目前正在探索预训练阶段。3D深度学习领域的研究受到计算能力和数据访问的限制,落后于图像和文本这是因为3D数据比图像和文本更复杂、更稀缺、更多样化。现有的3D内容创建方法通常需要大量的专业知识和人力,这可能非常耗时且昂贵的。在研究如何自动生成3D数据方面进行了许多开创性的尝试。然而,大模型生成的3D样本的质量和泛化是远不如其在文本和图像方面的效果的。

大模型(包括训练方法和模型结构)的发展取决于两个主要因素: 算力和数据量。这也间接地影响了大模型的发展,这可以参考自然语言处理领域中大模型的发展历史,如下图2所示。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.2.从训练数据量和模型参数量的角度,分析了2018-2021年自然语言处理大型模型的开发过程。

模型参数量和训练数据的数量受到计算能力的限制。通过参考摩尔定律(如下图3所示) ,我们可以假设和预测计算能力的发展。那么如何解决数据问题,换句话说,3D数据的爆炸何时到来?

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.3.对数图显示了从1970年到2020年,微芯片中晶体管数量几乎每两年翻一番的时间线;Moore’s Law。

数据角度

在讨论3D 领域的数据爆炸问题之前,让我们先来看看 PGC 和 UGC 是如何促进 AIGC 的。PGC (专业生成内容)是指由专业人士、机构或公司制作和发布的内容。这些内容通常具有高质量、可靠性和权威性,如新闻报道、电影、电视节目等。用户生成内容(UGC)是由普通用户或社区成员创建和共享的内容。

与PGC相比,UGC的质量参差不齐,但它为普通用户提供了一个表达自己意见和想法的平台。典型的UGC平台包括社交媒体、博客、论坛等。AIGC(人工智能生成的内容)指由人工智能算法和系统创建的内容。AIGC涵盖了文本、图像、音乐等多种内容类型,其质量随着技术的进步而逐渐提高,逐渐接近或甚至超过了人类创造的水平。

PGC、UGC和AIGC之间的关系是互补的。PGC、UGC和AIGC各有其独特的优势和局限性。PGC具有权威性和可靠性,但创建成本相对较高,更新速度相对较慢。UGC具有广泛的范围和多样性,但质量参差不齐。AIGC的发展需要时间,但生成型人工智能成熟后,可以在短时间内生成意想不到的高质量内容。

这三者在文本和图像领域的出现顺序是PGC、UGC和AIGC。在互联网发展之初,内容主要由专业人士和机构创建,即PGC。随着互联网技术和平台的发展,用户开始参与内容创作,形成UGC。近年来,随着人工智能技术的快速发展,人工智能逐渐进入内容创作,形成了AIGC。三种数据生成方法如下图4所示。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.4.三种数据生成方法,PGC和UGC通过提供训练数据来促进AIGC

AIGC 在文本和图像领域的出现在很大程度上取决于 PGC 和 UGC。从技术角度来看,AIGC 的发展确实得益于 PGC 和 UGC 提供的大量数据。在人工智能生成内容的过程中,PGC 和 UGC 为人工智能提供了丰富的样本和知识,帮助人工智能学习不同类型的内容和风格。从这个意义上说,AIGC 的发展取决于 PGC 和 UGC 的存在。

展望

2010年以来的数据爆炸

物联网设备的出现,尤其是智能手机的出现,极大地增加了网络文本和图像数据在几个方面的需求。下图5显示了自2010年以来创建、消耗和存储数据的数量。社交媒体的兴起是主要因素之一。

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt

Fig.5.2010年至2020年创建、消费和存储的数据量,以及到2025年的预测。

在iPhone 4发布时,诸如脸书、推特和Instagram越来越受欢迎,智能手机的便携性和功能也越来越强大,使其成为用户在这些平台上交流和共享内容的理想设备,从而使社交媒体平台上对文本和图像数据的需求与日俱增。不断升级的摄像头技术让手机用户可以轻松拍摄高质量的照片和视频,让用户上传和分享更多社交媒体、照片共享平台和其他在线服务上的图像数据。

应用程序商店的扩张也是一个重要因素。随着智能手机的发展,应用程序商店的生态系统得以进一步发展,更多开发商为手机开发应用程序,包括社交媒体应用程序、照片编辑应用程序、游戏、新闻阅读器等,令用户更容易接收和分享文字和图像资料,并进一步增加对这些资料的需求。最后,随着对高质量文本和图像数据的需求日益增加,内容创作者和公司开始投入更多的精力和资源来创作和发布这类内容,导致文本和图像数据的数量迅速增加。总的来说,智能手机的出现及其创新和改进大大增加了对文本和图像数据的需求,这在一定程度上促进了这些领域基础模型的发展。

3D领域正在等待它自己的"iPhone4"

在技术领域,iPhone 4不仅是一款手机,也是一个重要的里程碑。它的出现使全球观众感到惊讶,并改变了智能手机行业的格局。如今,3D领域也需要一款具有同等影响力的产品来推动行业的发展和普及。我们正在寻找期待3D产品的诞生,它可以引领潮流,让人们重新思考这项技术的价值。在在过去的几年里,3D技术取得了巨大的进步,但与主流技术在市场接受度和广泛应用方面仍有一定的距离。可以从以下几个方面思考3D领域如何迎接它的"iPhone 4"。

首先,3D 产品需要有更强的可用性。正如 iPhone 4改进了触摸屏、操作系统和用户界面,使手机更加直观和易于使用,3D 技术也需要在这一领域取得突破。硬件和软件都需要为用户提供直观的操作体验,降低学习成本,使更多的人更容易开始。其次,创新的业务模型和应用场景至关重要。

IPhone 4为开发者创造了一个巨大的应用市场,吸引了无数精彩应用的诞生。3D 领域也需要找到类似的突破,这样3D 技术就不再局限于某些特定场景,而是成为我们日常生活中不可或缺的一部分。最后,3D 领域需要一个领先的企业来领导创新。随着iPhone 4的成功,苹果已经成为智能手机市场的领导者。3D 领域还需要一个有远见和实力的企业来推动技术进步和市场竞争。这样的企业不仅能引领市场潮流,而且能带动整个行业的技术创新和应用拓展。总体而言,在3D 领域,一个受欢迎的消费者层面的产品有望促进对3D 数据的需求,从而进一步推动3D 领域深度学习的发展。

结论

鉴于ChatGPT在NLP领域占据主导地位,可以用一个模型解决几乎所有的文本任务,这项工作简要介绍了这种模型何时可能进入计算机视觉领域,从2D视觉到3D视觉。

参考

[1]. When ChatGPT for Computer Vision Will Come? From 2D to 3D

更多精彩内容,请关注公众号:AI生成未来

从2D到3D,计算机视觉的ChatGPT何时到来?,AIGC,3d,计算机视觉,chatgpt文章来源地址https://www.toymoban.com/news/detail-768685.html

到了这里,关于从2D到3D,计算机视觉的ChatGPT何时到来?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算机视觉 3D点云极简概述

            点云是表示 3D 坐标系中的数字 3D 物理对象或空间的点数据库。它由数百万或者更多个单独的测量点组成,具有 x、y 和 z 坐标。3D点云是物体的高精度数字记录。点云用于生成用于 3D 建模的 3D 网格和其他模型。包括医学成像、3D 打印、制造、建筑、3D 游戏和虚拟

    2024年02月13日
    浏览(48)
  • 【计算机视觉|人脸建模】3D人脸重建基础知识(入门)

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 三维重建(3D Reconstruction)是指根据单视图或者多视图的图像重建三维信息的过程。 人工几何模型 仪器采集 基于图像的建模 描述 基于几何建模软件通过人机交互生成物体三维几何模型 基于结构光和激光扫描技术

    2024年02月14日
    浏览(61)
  • 计算机视觉新巅峰,微软&牛津联合提出MVSplat登顶3D重建

    3D场景重建和新视角合成是计算机视觉领域的一项基础挑战,尤其是当输入图像非常稀疏(例如,只有两张)时。尽管利用神经场景表示,例如场景表示网络(SRN)、神经辐射场(NeRF)和光场网络(LFN)等,取得了显著进展,但这些方法在实际应用中仍然不尽人意,原因包括

    2024年04月15日
    浏览(68)
  • 【计算机视觉|人脸建模】学习从图像中回归3D面部形状和表情而无需3D监督

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 标题: Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision 链接:[1905.06817] Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision (arxiv.org) 从单张图像估计3D面部形状必须对光照、头部姿势

    2024年02月07日
    浏览(61)
  • 【计算机视觉中的 GAN 】 - 条件图像合成和 3D 对象生成(2)

            上文  【计算机视觉中的 GAN 】 或多或少是GANs,生成学习和计算机视觉的介绍。我们达到了在 128x128 图像中生成可区分图像特征的程度。但是,如果你真的想了解GAN在计算机视觉方面的进展,你肯定必须深入研究图像到图像的翻译。尽管这是第一个成功的模型,

    2024年02月15日
    浏览(52)
  • 【计算机视觉|人脸建模】深度学习时代的3D人脸重建调查报告

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 标题: 3D Face Reconstruction in Deep Learning Era: A Survey 链接:3D Face Reconstruction in Deep Learning Era: A Survey - PubMed (nih.gov) 随着深度学习的出现和图形处理单元的广泛应用,3D人脸重建已成为生物特征识别最引人入胜的主题。

    2024年02月14日
    浏览(60)
  • 【计算机视觉|人脸建模】PanoHead:360度几何感知的3D全头合成

    本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处 标题: PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ∘ ^{circ} ∘ 链接:[2303.13071] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 ∘ ^{circ} ∘ (arxiv.org) 最近,在计算机视觉和计算机图形领域,对3D人头的合成和重建引起了

    2024年02月07日
    浏览(54)
  • 【点云处理教程】00计算机视觉的Open3D简介

            Open3D 是一个开源库,使开发人员能够处理 3D 数据。它提供了一组用于 3D 数据处理、可视化和机器学习任务的工具。该库支持各种数据格式,例如 .ply、.obj、.stl 和 .xyz,并允许用户创建自定义数据结构并在程序中访问它们。 Open3D 广泛应用于机器人、增强现实和自

    2024年02月14日
    浏览(48)
  • 计算机视觉与图形学-神经渲染专题-pi-GAN and CIPS-3D

    《pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis 》 摘要 我们见证了3D感知图像合成的快速进展,利用了生成视觉模型和神经渲染的最新进展。然而,现有的方法在两方面存在不足:首先,它们可能缺乏底层的3D表示,或者依赖于视图不一致的渲染,从而合

    2024年02月14日
    浏览(63)
  • 计算机视觉与图形学-神经渲染专题-Seal-3D(基于NeRF的像素级交互式编辑)

    摘要 随着隐式神经表示或神经辐射场 (NeRF) 的流行,迫切需要与隐式 3D 模型交互的编辑方法,以完成后处理重建场景和 3D 内容创建等任务。虽然之前的作品从不同角度探索了 NeRF 编辑,但它们在编辑灵活性、质量和速度方面受到限制,无法提供直接的编辑响应和即时预览。

    2024年02月13日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包