Nerf系列数据集记录

这篇具有很好参考价值的文章主要介绍了Nerf系列数据集记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

此篇文章用于记录nerf系列的常用数据集 😺（猫猫头防伪认证）

NeRF

NeRF主要采用了两类数据集，合成数据集（synthetic）和真实数据集（real images）

😺其中合成数据集包括：

DeepVoxel
- 该数据集包含四个具有简单几何结构的朗伯对象（Lambertian objects）。
- 视图为512×512像素
- 每个对象从上半球（the upper hemisphere）采样的视点渲染（479个作为输入，1000用于测试）。
nerf_synthetic
- 其中包含八个对象的路径跟踪图像（pathtraced images），这些对象具有复杂的几何结构和逼真的非朗伯材质（non-Lambertian materials）。六个从上半球上采样的视点渲染，两个从整个球体上采样的点渲染。
- Nerf渲染每个场景的100个视图作为输入，200个视图用于测试
- 所有视图均为800×800像素。

😺其中真实数据集包括：

LLFF
- 在Nerf中，这个数据集由8个场景组成，这些场景是用手持手机拍摄的（5个取自LLFF文章，3个是Nerf拍摄的），用20到62张图像拍摄的，并为测试集保留其中的1/8。
- 设计用于为采样良好的正向场景生成逼真的新视图。(ndc)
- 所有图片都是1008×756像素。
  
  （🐵在泛化系列中，IBRNet又对其进行了扩充，共有102个，67来自IBRNet作者制作，35来在LLFF）
nerf_real_360
- 官方Google云里有的数据，但没看到论文提到
- 我看了一下是对真实场景的360的拍摄，然后利用colmap完成了位姿估计
- 具体数据格式同LLFF
- 像素比较高，vase_deck:4032x3024; pinecone:3024x4032

其它

DTU
- DTU是一个MVS数据集，常被被用来做MVS、NeRF方法的训练集。
- DTU是一个大型数据集，包含受控实验室环境中的128个场景，其模型使用结构光扫描仪捕获。
- 在7种不同的照明条件下，在相同的49或64个相机位置扫描每个场景，生成分辨率为1200×1600像素的RGB图像。
  
  （🐵Note：在NeRF泛化系列论文中，如PixelNerf、MVSNerf中在DTU数据集上训练框架，以学习可泛化的网络，PixelNerf下采样400x300，而MVSNerf下采样到512 × 640分辨率，都采用的88个训练场景和15个测试场景的不同分割）
ShapeNet
- 属于小型点云数据集，小型数据集指一个点云中包含的对象或场景非常小，直观表现就是点数非常少的数据集。
- 该数据集有16个类别（飞机，椅子，汽车等），共16,881个形状。每个类别又进一步的标注了组件结构（例如飞机分为机翼，机身和机尾）用作part segmentation，16个类别一共分成了50个part。每种类别形状规则无杂点，点数少，因此为小型数据集。
  
  （🐵Note：在PixelNerf中，它主要利用这些有明确类别的数据集来做：①用于特定类别和类别未知的视图合成，②具有未见类别和多个对象的ShapeNet场景，这两者都需要几何先验而不是识别，以及域转移到真实的汽车照片）
Google scanned objects
- 一个由超过 1000 个 3D 扫描的家用物品组成的精选集。
- 在IBRNet中，作者利用该数据模型生成了以对象为中心的渲染图片，共1023个类别
- RealEstate10K[74]、Spaces数据集[12]和102个来自手持手机捕捉的真实场景(35个来自LLFF[41]
RealEstate10K
- RealEstate10K 一个大规模相机姿势 (camera pose) 数据集，包含从大约 10,000 个 YouTube 视频中收集的大约 80,000 个视频片段，总共 1000 万帧。对于每个视频片段，这些相机姿势形成一条轨迹，其中每个姿势都指定了相机的位置和沿轨迹的方向。
- 该数据集包含从视频片段派生的相机轨迹。这些轨迹是通过在大量视频上运行 SLAM 和捆绑调整算法得出的。
Spaces
- 该数据集包含了由16台摄像机捕捉到的100个场景。
ModelNet40
- 属于小型点云数据集
- 含有40种类别比ShapeNet大。
- 但ShapeNet数据集有实例标签，ModelNet40好像没有。
Stanford Large-Scale 3D Indoor Spaces (S3IDS)
- 属于大型点云数据集，大型数据集指一个点云中包含的对象或场景非常大，直观表现就是点数非常多的数据集。
- 斯坦福室内数据集是由6个大型室内区域组成（如上图所示），每个区域又分为若干个房间，一共有271个房间，13个语义类别（例如：桌子，板凳，墙壁，沙发等）。
Virtual KITTI dataset（vKITTI）
- 属于大型点云数据集
- 虚拟激光雷达点云是一个大型的室外道路点云，也包含了13个类别（例如：汽车，道路，树木等）。

论文使用数据集记录

🐔顺便记录每篇论文用了啥数据集（鸡哥护体）文章来源地址https://www.toymoban.com/news/detail-451327.html

论文	数据集	补充
Nerf	DeepVoxel, nerf_synthetic, LLFF
PixelNerf	DTU、ShapeNet	88个训练场景和15个测试场景的不同分割（在MVSNerf和PointNerf中采取一样的策略）
IBRNet	Google scanned objects，RealEstate10K、Spaces、LLFF（自己补充了一些）	Google数据集是合成的，剩下三个是真实数据集
MVSNerf	DTU, nerf合成数据集，LLFF	DTU上训练，nerf数据集上泛化和微调
PointNerf	DTU，nerf合成数据集，tank and temples	DTU上训练，nerf、tank数据集上泛化和微调