从2D到3D，计算机视觉的ChatGPT何时到来？

这篇具有很好参考价值的文章主要介绍了从2D到3D，计算机视觉的ChatGPT何时到来？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

ChatGPT 及其改进型 GPT4通过一个单一模型解决了几乎所有与文本相关的任务，彻底改变了 NLP 领域。然而，这样的一个模型在计算机视觉方面并不存在，特别是对于3D视觉。本文首先从模型的角度简要介绍了深度学习在文本、图像和3D领域的进展。此外，本文还从数据的角度进一步讨论了 AIGC 是如何发展的。在此基础上，本文从数据的角度对 AIGC在3D领域的发展进行了展望。

介绍

生成人工智能（AIGC）在过去几年中取得了显著进展，其中 ChatGPT 是一个现象级产品，吸引了人们的极大关注。ChatGPT 的出现在很大程度上归因于大规模的预训练模型，如BERT 和 GPT 这些模型不仅在自然语言处理任务中表现良好，而且为计算机视觉和其他领域提供了强有力的支持。

在文本领域，以 ChatGPT 为代表的大规模深度学习模型，在自然语言处理(NLP)任务中取得了革命性的成果。他们使用大量的文本数据进行预训练，从而实现对自然语言的高水平理解和生成。这些模型已被广泛用于机器翻译、文本摘要、问答系统等任务，并在各种评估中显示出超越人类的性能。这些成功的应用为研究人员提供了新的思路，进一步推动了生成性人工智能在文本领域的发展。同时，在图像领域，大规模深度学习模型也取得了重大突破。这些模型使用大量的图像数据进行训练，为计算机视觉任务提供了有力的支持。他们在图像识别、目标检测、语义分割等领域取得了优异的成果，引领了计算机视觉领域的研究方向。生成式人工智能在图像领域也取得了显著的突破，为人工智能在图像处理和分析中的应用奠定了坚实的基础。与2D图像相比，3D领域的进展相对滞后。3D模型在模拟现实世界、数字媒体和虚拟现实方面具有巨大的潜力。虽然文本到图像可以生成高分辨率、精致的图像，但文本到3D模型还无法获得相同的结果。在NeRF的帮助下，3D领域可以采取另一种方法，使用从文本到图像的强大先验来帮助训练文本到3D模型。此外，一些基于深度学习的3D模型重建和生成算法已经取得了巨大进展，为未来3D领域的大规模预训练模型奠定了基础。总体而言，与文本和图像字段相比，3D领域在数据规模、计算复杂性和模型表示方面面临更多挑战。本文的其余部分组织如下。第二部分从模型的角度讨论了深度学习的发展。此外，第三节进一步从数据的角度介绍了 AIGC 的发展。在此基础上，第四节从数据的角度展望了 AIGC 在3D 领域的发展前景。

模型角度

深度学习的三个阶段。自2012年AlexNet成功以来，深度学习发展迅速，堪称数据驱动人工智能的典范。影响深度学习发展的三个重要因素是数据、算力和模型。在这三个因素的演变过程中，深度学习根据其表现大致可以分为三个阶段：任务特定阶段、微调阶段和一般任务阶段，如下图1所示。

从2D到3D，计算机视觉的ChatGPT何时到来？,AIGC,3d,计算机视觉,chatgpt

Fig.1. 深度学习的三个阶段: 文本、图像和三维，以及它们的代表作

首先，在特定任务阶段，由于数据量有限，采用了具有强归纳偏差的模型，如卷积神经网络和递归神经网络，以及监督学习。这些模型可以在少量数据上获得良好的结果。

然后，在大模型预训练和微调阶段，训练数据变得更加复杂和广泛，少数模型参数和网络层无法再学习复杂和广泛的数据分布。主流模型结构也成为了全局依赖的transformer，使用自监督学习，首先学习复杂特征，然后进行微调以解决下游任务。

目前，文本已进入一般任务阶段。有了更多的数据和超大模型，只需特定的提示就可以学习更接近现实的数据分布，从而完成免费的内容生成。这一阶段的代表作包括文本领域的GPT系列。在图像领域，还没有针对大型模型的统一CV领域任务，但Dalle已经显示出强大的文本提示2D图像生成能力，SAM（Segment Anything）已经在单个分割任务中显示出主导力。

「文本」。随着深度学习的发展，自然语言处理(NLP)领域已经进入了超大型模型时代。由 Google 引入的transformer模型是当前大型模型的基础网络架构，OpenAI 在2022年11月发布的 ChatGPT 是一个对话类型的超大型语言模型，使用生成式预训练transformer(GPT)来处理序列数据，具有语言理解和文本生成能力。它可以通过大量的语料库训练模型，实现与真人几乎无法区分的聊天场景。ChatGPT 不仅可以用作聊天机器人，还可以用于写电子邮件、视频脚本、文案、翻译和编码等任务。自然语言处理领域是超大型模型时代的前沿。

「图像」。在 GPT-3之上，OpenAI 发布了大规模的图像生成模型 DALL-E，它可以从自然语言描述中生成数字图像，称为“prompts”。后来，OpenAI 发布了 DALL-E2，后者的设计目的是生成更真实的图像和更高的分辨率，具有3.5B的参数量。它可以包含概念、属性和样式。该模型在计算机视觉领域取得了相当大的成果，并在生成质量方面取得了显著提高。最近，Meta发布了一个名为“Segment Anything”的项目，该项目引入了一个称为可提示分割的新任务以及一个新的大型分割数据集。由此产生的模型称为分割任何物体模型(SAM)模拟了自然语言处理中的 GPT-3，采用快速工程方法使其适应各种下游任务，这表明了令人印象深刻的zero-shot转换性能。许多工作评估了它的推广能力或鲁棒性。此外，一些工作还将 SAM 与其他模型相结合，实现了图像编辑和修改，这表明 SAM 也可以帮助生成任务。

3D领域目前正在探索预训练阶段。3D深度学习领域的研究受到计算能力和数据访问的限制，落后于图像和文本这是因为3D数据比图像和文本更复杂、更稀缺、更多样化。现有的3D内容创建方法通常需要大量的专业知识和人力，这可能非常耗时且昂贵的。在研究如何自动生成3D数据方面进行了许多开创性的尝试。然而，大模型生成的3D样本的质量和泛化是远不如其在文本和图像方面的效果的。

大模型(包括训练方法和模型结构)的发展取决于两个主要因素: 算力和数据量。这也间接地影响了大模型的发展，这可以参考自然语言处理领域中大模型的发展历史，如下图2所示。

从2D到3D，计算机视觉的ChatGPT何时到来？,AIGC,3d,计算机视觉,chatgpt

Fig.2.从训练数据量和模型参数量的角度，分析了2018-2021年自然语言处理大型模型的开发过程。

模型参数量和训练数据的数量受到计算能力的限制。通过参考摩尔定律(如下图3所示) ，我们可以假设和预测计算能力的发展。那么如何解决数据问题，换句话说，3D数据的爆炸何时到来？

从2D到3D，计算机视觉的ChatGPT何时到来？,AIGC,3d,计算机视觉,chatgpt

Fig.3.对数图显示了从1970年到2020年，微芯片中晶体管数量几乎每两年翻一番的时间线；Moore’s Law。

数据角度

在讨论3D 领域的数据爆炸问题之前，让我们先来看看 PGC 和 UGC 是如何促进 AIGC 的。PGC (专业生成内容)是指由专业人士、机构或公司制作和发布的内容。这些内容通常具有高质量、可靠性和权威性，如新闻报道、电影、电视节目等。用户生成内容(UGC)是由普通用户或社区成员创建和共享的内容。

与PGC相比，UGC的质量参差不齐，但它为普通用户提供了一个表达自己意见和想法的平台。典型的UGC平台包括社交媒体、博客、论坛等。AIGC（人工智能生成的内容）指由人工智能算法和系统创建的内容。AIGC涵盖了文本、图像、音乐等多种内容类型，其质量随着技术的进步而逐渐提高，逐渐接近或甚至超过了人类创造的水平。

PGC、UGC和AIGC之间的关系是互补的。PGC、UGC和AIGC各有其独特的优势和局限性。PGC具有权威性和可靠性，但创建成本相对较高，更新速度相对较慢。UGC具有广泛的范围和多样性，但质量参差不齐。AIGC的发展需要时间，但生成型人工智能成熟后，可以在短时间内生成意想不到的高质量内容。

这三者在文本和图像领域的出现顺序是PGC、UGC和AIGC。在互联网发展之初，内容主要由专业人士和机构创建，即PGC。随着互联网技术和平台的发展，用户开始参与内容创作，形成UGC。近年来，随着人工智能技术的快速发展，人工智能逐渐进入内容创作，形成了AIGC。三种数据生成方法如下图4所示。

从2D到3D，计算机视觉的ChatGPT何时到来？,AIGC,3d,计算机视觉,chatgpt

Fig.4.三种数据生成方法，PGC和UGC通过提供训练数据来促进AIGC

AIGC 在文本和图像领域的出现在很大程度上取决于 PGC 和 UGC。从技术角度来看，AIGC 的发展确实得益于 PGC 和 UGC 提供的大量数据。在人工智能生成内容的过程中，PGC 和 UGC 为人工智能提供了丰富的样本和知识，帮助人工智能学习不同类型的内容和风格。从这个意义上说，AIGC 的发展取决于 PGC 和 UGC 的存在。

展望

2010年以来的数据爆炸

物联网设备的出现，尤其是智能手机的出现，极大地增加了网络文本和图像数据在几个方面的需求。下图5显示了自2010年以来创建、消耗和存储数据的数量。社交媒体的兴起是主要因素之一。

从2D到3D，计算机视觉的ChatGPT何时到来？,AIGC,3d,计算机视觉,chatgpt

Fig.5.2010年至2020年创建、消费和存储的数据量，以及到2025年的预测。

在iPhone 4发布时，诸如脸书、推特和Instagram越来越受欢迎，智能手机的便携性和功能也越来越强大，使其成为用户在这些平台上交流和共享内容的理想设备，从而使社交媒体平台上对文本和图像数据的需求与日俱增。不断升级的摄像头技术让手机用户可以轻松拍摄高质量的照片和视频，让用户上传和分享更多社交媒体、照片共享平台和其他在线服务上的图像数据。

应用程序商店的扩张也是一个重要因素。随着智能手机的发展，应用程序商店的生态系统得以进一步发展，更多开发商为手机开发应用程序，包括社交媒体应用程序、照片编辑应用程序、游戏、新闻阅读器等，令用户更容易接收和分享文字和图像资料，并进一步增加对这些资料的需求。最后，随着对高质量文本和图像数据的需求日益增加，内容创作者和公司开始投入更多的精力和资源来创作和发布这类内容，导致文本和图像数据的数量迅速增加。总的来说，智能手机的出现及其创新和改进大大增加了对文本和图像数据的需求，这在一定程度上促进了这些领域基础模型的发展。

3D领域正在等待它自己的"iPhone4"

在技术领域，iPhone 4不仅是一款手机，也是一个重要的里程碑。它的出现使全球观众感到惊讶，并改变了智能手机行业的格局。如今，3D领域也需要一款具有同等影响力的产品来推动行业的发展和普及。我们正在寻找期待3D产品的诞生，它可以引领潮流，让人们重新思考这项技术的价值。在在过去的几年里，3D技术取得了巨大的进步，但与主流技术在市场接受度和广泛应用方面仍有一定的距离。可以从以下几个方面思考3D领域如何迎接它的"iPhone 4"。

首先，3D 产品需要有更强的可用性。正如 iPhone 4改进了触摸屏、操作系统和用户界面，使手机更加直观和易于使用，3D 技术也需要在这一领域取得突破。硬件和软件都需要为用户提供直观的操作体验，降低学习成本，使更多的人更容易开始。其次，创新的业务模型和应用场景至关重要。

IPhone 4为开发者创造了一个巨大的应用市场，吸引了无数精彩应用的诞生。3D 领域也需要找到类似的突破，这样3D 技术就不再局限于某些特定场景，而是成为我们日常生活中不可或缺的一部分。最后，3D 领域需要一个领先的企业来领导创新。随着iPhone 4的成功，苹果已经成为智能手机市场的领导者。3D 领域还需要一个有远见和实力的企业来推动技术进步和市场竞争。这样的企业不仅能引领市场潮流，而且能带动整个行业的技术创新和应用拓展。总体而言，在3D 领域，一个受欢迎的消费者层面的产品有望促进对3D 数据的需求，从而进一步推动3D 领域深度学习的发展。