Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】

这篇具有很好参考价值的文章主要介绍了Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

P1 2D Detection and Segmentation

P2 Video = 2D + time series

P3 Focus on Two Problems

P4 Many more topics in 3D Vision

P5-10 Multi-View CNN 

P11 Experiments – Classification & Retrieval

P12 3D Shape Representations

P13--17 3D Shape Representations: Depth Map

Per-Pixel Loss (L2 Distance) 

Problem: Scale / Depth Ambiguity

Predicting Depth Maps

 P18--26   3D Shape Representations: Surface Normals 曲面法线

 3D Shape Representations: Voxels

Processing Voxel Inputs: 3D Convolution

 Generating Voxel Shapes: 3D Convolution

P27--34  3D Shape Representations: Point Cloud

Proessing Pointcloud Inputs: PointNet

Generating Pointcloud Outputs

 Predicting Point Clouds: Loss Function

 P35--51    3D Shape Representations: Triangle Mesh

 Predicting Meshes: Pixel2Mesh

 Predicting Triangle Meshes: Graph Convolution

Predicting Triangle Meshes: Vertex-Aligned Features

Predicting Meshes: Loss Function

P52--73 3D Shape Prediction: Mesh R-CNN

Mesh R-CNN: Hybrid 3D shape representation

 Mesh R-CNN Pipeline

Mesh R-CNN: ShapeNet Results

Datasets for 3D Objects

 Datasets for 3D Object Parts

 P74--92   3D Shape Representations: Implicit Functions

 Algebraic Surfaces (Implicit)

 Constructive Solid Geometry (Implicit) 

 Level Set Methods (Implicit) 

 NeRF: Representing Scenes as Neural Radiance Fields

P93 Summary: 3D Shape Representations


P1 2D Detection and Segmentation

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Classification分P类:没有空间信息,只是对一张图片进行分类

Semantic Segmentation语义分割: 没有物体,只有像素点,对像素点进行分类

Object Detection目标检测:直接识别出物体并进行分类

Instance Segmentation:实例分割=目标检测+语义分割 (第一次听说这个)

语义分割只需要分出不同类就行,同类的不同个体不需要分,但是Instance Segmentation在语义分割的基础上又把不同的类进行了分割:目标检测后,需要对检测的部分做进一步的语义分割

P2 Video = 2D + time series

视频就是2D的图像加上了时间序列

P3 Focus on Two Problems

今天需要解决的两个问题

①由一张输入图像得到一个3D模型

②识别3D模型进行类别判定

P4 Many more topics in 3D Vision

3D Representations 三维表示法
Computing Correspondences 计算对应关系
Multi-view stereo 多视角立体
Structure from Motion 运动结构
Simultaneous Localization and Mapping (SLAM) 同步定位和绘图
View Synthesis 视图合成
Differentiable Graphics 可变图形
3D Sensors 三维传感器

P5-10 Multi-View CNN 

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

CNN1:提取图像特征的卷积神经网络

CNN2:生成描述形状符的卷积神经网络

P11 Experiments – Classification & Retrieval

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Q:MVCNN? SPH? LFD? 3D ShapeNets? FV? 

P12 3D Shape Representations

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Q: Voxel Grid?  Pointcloud?  Mesh?  Surface? 

A:下面详细讲啦

P13--17 3D Shape Representations: Depth Map

RGB image + Depth image = RGB-D Image (2.5D)

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Q:H是Height ?  W是Width?

 可以使用全卷积神经网络进行深度图预测,得到两个估计的深度图,然后还可以得到每像素Loss 

Per-Pixel Loss (L2 Distance) 

Q:L2 距离是什么?

Problem: Scale / Depth Ambiguity

Q:具体是什么意思以及怎么解决?

A: 意思大概是单目图像中信息有限

Predicting Depth Maps

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Scale invariant 尺度不变性

 P18--26   3D Shape Representations: Surface Normals 曲面法线

对于每个像素,表面法线给出一个向量,表示该像素的世界上的对象的法向向量

假设 RGB Image为 3 x H x W,那么法线图 Normals: 3 x H x W

Predicting Normals

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 3D Shape Representations: Voxels

• Represent a shape with a V x V x V grid of occupancies     网格表示形状

• Just like segmentation masks in Mask R-CNN, but in 3D!   分割掩码

• (+) Conceptually simple: just a 3D grid!     只是一个3D网格

• (-) Need high spatial resolution to capture fine structures 需要高空间分辨率捕捉精细结构

• (-) Scaling to high resolutions is nontrivial !   缩放到高分辨率并不容易

Processing Voxel Inputs: 3D Convolution

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Generating Voxel Shapes: 3D Convolution

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Voxel Problems: Memory Usage

        Storing 1024(3次方) voxel grid takes 4GB of memory

Scaling Voxels: Oct-Trees 八叉树

Q: 没太看懂这个Oct-Trees

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

P27--34  3D Shape Representations: Point Cloud

• Represent shape as a set of P points in 3D space

• (+) Can represent fine structures without huge numbers of points

• ( ) Requires new architecture, losses, etc

• (-) Doesn’t explicitly represent the surface of the shape: extracting a mesh for rendering or other applications requires post-processing  

提取网格为渲染或其他应用提取网格需要进行后处理

Proessing Pointcloud Inputs: PointNet

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 MLP ?  

Max-Pool?

Generating Pointcloud Outputs

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Predicting Point Clouds: Loss Function

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 P35--51    3D Shape Representations: Triangle Mesh

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Predicting Meshes: Pixel2Mesh

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Idea #1: Iterative mesh refinement

Start from initial ellipsoid mesh Network predicts offsets for each vertex Repeat.

从初始椭球网格开始 网络预测每个顶点的偏移 重复。

 Predicting Triangle Meshes: Graph Convolution

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Problem: How to incorporate image features?

Predicting Triangle Meshes: Vertex-Aligned Features

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Predicting Meshes: Loss Function

The same shape can be represented with different meshes – how can we define a loss between predicted and ground-truth mesh?

Idea: Convert meshes to pointclouds, then compute loss

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

P52--73 3D Shape Prediction: Mesh R-CNN

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Mesh R-CNN: Hybrid 3D shape representation

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Mesh R-CNN Pipeline

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Mesh R-CNN: ShapeNet Results

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

Datasets for 3D Objects

Large-scale Synthetic Objects: ShapeNet, 3M models

ModelNet: absorbed by ShapeNet

ShapeNetCore: 51.3K models in 55 categories

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Datasets for 3D Object Parts

Fine-grained Parts: PartNet

• Fine-grained (+mobility)

• Instance-level

• Hierarchical

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 P74--92   3D Shape Representations: Implicit Functions

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Algebraic Surfaces (Implicit)

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Constructive Solid Geometry (Implicit) 

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Level Set Methods (Implicit) 

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 NeRF: Representing Scenes as Neural Radiance Fields

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 文章来源地址https://www.toymoban.com/news/detail-688610.html

P93 Summary: 3D Shape Representations

Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】,人工智能

 

 

 

 

到了这里,关于Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解读:DUSt3R: Geometric 3D Vision Made Easy

    概述:给定一个无约束图像集,即一组具有未知相机姿态和内在特征的照片,我们提出的 DUSt3R 方法会输出一组相应的点阵图,从中我们可以直接恢复通常难以一次性估算的各种几何量,如相机参数、像素对应关系、深度图和完全一致的三维重建。请注意,DUSt3R 也适用于单一

    2024年03月10日
    浏览(79)
  • [visionOS] [Apple Vision Pro] 3D模型文件格式转换:obj转usdz

    1,先要安装好Python3.7 【必须是Python3.7.x版本】 到Python官方去下载macOS版的Python3.7.x安装包 Python Releases for macOS | Python.org 要注意找一下,有些 3.7.x版本没有macOS安装包, 这里直接给出其中两个可以下载的 Python 3.7.8rc1 - June 17, 2020 Download macOS 64-bit installer Python 3.7.9 - Aug. 17, 2020

    2024年02月16日
    浏览(107)
  • 【论文笔记】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文链接:https://arxiv.org/pdf/2401.06994.pdf 目前,同时处理基于图像的3D检测任务和占用预测任务还未得到充分探索。3D占用预测需要细粒度信息,多使用体素表达;而3D检测多使用BEV表达,因其更加高效。 本文提出UniVision,同时处理3D检测与占用预测任务的统一网络。网络结构为

    2024年02月19日
    浏览(42)
  • 苹果眼镜(Vision Pro)的开发者指南(3)-【3D UI SwiftUI和RealityKit】介绍

    为了更深入地理解SwiftUI和RealityKit,建议你参加专注于SwiftUI场景类型的系列会议。这些会议将帮助你掌握如何在窗口、卷和空间中构建出色的用户界面。同时,了解Model 3D API将为你提供更多关于如何为应用添加深度和维度的知识。此外,通过学习RealityView渲染3D内容,你将能够

    2024年01月23日
    浏览(46)
  • 【原文链接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

    原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf 体素表达需要较大的计算量和特别的技巧(如稀疏卷积),BEV表达难以使用平面特征编码所有3D结构。 本文提出三视图(TPV)表达3D场景。为得到空间

    2024年01月23日
    浏览(48)
  • 深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎

    Apple Vision Pro 的 传感器分布 Apple Vision Pro目前公开出的产品形态包含众多传感器,以强化设备的深度信息感知能力,实现最佳的三维空间虚实结合效果。其中视觉传感器包括以下几类:RGB摄像头,红外摄像头,dToF激光雷达,结构光相机,以及鱼眼红外摄像头。 Apple Vision Pro正

    2024年02月15日
    浏览(42)
  • 16个实用的CSS样式之3D照片墙

    对于初学前端的小白来说css样式的设计很考验基本功和创意想法,而在项目开发中我们不可能将大部分的时间用于CSS代码的编写,能复用的就复用。因此我特意总结了16个在项目开发中常用的CSS样式,因为自己也是初学者,所以以小白的视角来记录和学习这16款样式的设计与编

    2024年02月05日
    浏览(35)
  • 基于Open3D的点云处理16-特征点匹配

    将点云数据统一到一个世界坐标系的过程称之为点云配准或者点云拼接。(registration/align) 点云配准的过程其实就是找到同名点对;即找到在点云中处在真实世界同一位置的点。 常见的点云配准算法: ICP、Color ICP、Trimed-ICP 算法流程: 选点: 确定参与到配准过程中的点集。 匹

    2024年02月10日
    浏览(55)
  • 【GAMES101】Lecture 06 抗锯齿

    目录 锯齿与走样  反走样 ​编辑 MSAA(Multisample Anti-Aliasing)多重采样坑锯齿 我们在前一节课讲过在三角形光栅化的时候会出现锯齿的情况 这个也叫走样,是采样不够的结果,如下这个周期函数,如果我们每隔一定间隔对函数进行采样,最后发现我们采样出来的结果(就是图

    2024年01月17日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包