文献阅读笔记系列一:事件相机3D重建的方法探究

这篇具有很好参考价值的文章主要介绍了文献阅读笔记系列一:事件相机3D重建的方法探究。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.问题的描述

1.1事件相机

事件相机是一种仿生传感器,与传统相机不同,它异步测量每像素的亮度变化,并输出编码这些变化的时间、位置和符号的事件流[1]。事件相机具有高时间分辨率、高动态范围、低功耗和高像素带宽等特性,使其在机器人和计算机视觉领域具有巨大的潜力。然而,需要新的方法来处理这些传感器的非常规输出,以释放其潜力。

1.2 事件

事件相机拍摄的是“事件”,可以简单理解为“像素亮度的变化”,即事件相机输出的是像素亮度的变化情况。当场景中物体运动或光照改变造成大量像素变化时,事件相机会产生一系列的事件,并以事件流的方式输出。这些事件具有时间戳、像素坐标与极性三个要素,表达的是“在什么时间,哪个像素点,发生了亮度的增加或减小”。图1[2]展示了理想情况下传统相机和事件相机的输出比较。当圆盘匀速转动时,传统相机输出的帧之间存在时间间隔,导致一定延迟,而事件相机输出连续。当圆盘静止时,事件相机无事件信息输出,传统相机仍产生图像,可能导致数据冗余。当圆盘转速加快,传统相机出现运动模糊,而事件相机响应正常。

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

图1 事件相机与传统相机输出比较[2]

1.3 问题描述与相关工作

事件相机与传统的帧相机存在根本性差异,现有计算机视觉算法不能直接应用于事件相机。尽管事件相机的硬件已经相当精确和高效,但利用事件流进行图像重建仍面临挑战:一是事件流的时间分辨率高,但输出的强度图像帧率较低;二是记录高速运动场景时,由于相机与场景的相对运动,输出的强度图像往往模糊[3]。

为了应对这些挑战,研究者已经提出了重构高质量图像和高帧率视频的各种方法。然而,目前性能最好的方法需要多个事件摄像机来执行深度估计[4][5],然后从估计的深度图创建3D重建。虽然可以为相同的任务使用一个事件摄像机,但这些方法只能创建半密集重建[2][6]。其他可以产生密集重建结果的单目方法都需要通道[7][8]。

二.研究方法探究

2.1 事件相机原理

   为了深入理解事件相机,我们需要探究事件流形成的数学过程,其典型数据可表示为:

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

式中:L:像素点亮度;像素点位置;k:第K时刻;p:事件极性。

事件相机以异步方式回传事件数据,不同于传统相机同时回传所有像素值。当像素亮度发生变化时,事件相机会产生事件,包含像素坐标、时间戳和极性(表示亮度变化方向)。这种异步工作机制使得事件相机具有低延迟特性,能够捕捉到短时间间隔内的像素变化。

图2展示了事件流的实例。在(a)图中,我们观察到事件流随时间的变化,以三维坐标系的形式呈现。虽然无法直接从(a)图中获取时间相机捕获的图像信息,但通过将事件流的时间轴进行堆叠,将三维图形投影到二维平面,形成如(b)图的二维图像,可以清晰地观察到一个人的轮廓。

事件相机通过捕捉像素点的亮度变化来检测物体的运动。由于物体轮廓的像素变化最为显著,事件相机主要提取物体在时间上的运动信息,尤其是轮廓信息。这些信息被整合成一个包含时间信息在内的三维矩阵,即事件流。因此,事件流本质上是对物体在时间上运动信息的提取,形成包含时间信息的三维矩阵。这种信息提取方式使得事件相机在处理动态场景时具有较高的准确性和实时性,为许多领域的应用提供了新的可能性。

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

            (a)                                                    (b)

图2 事件流举例

2.2 基于CNN方法的网络原理

针对这种特殊的数据类型,文献[9] 受到pix2vox方法[10]启发提出了一种基于单目相机的密集重建方法。Pix2vox是一个用于单视图和多视图3D重建的新框架。如图3所示,包含四个模块:编码器、解码器、细化器。

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

图3 Pix2vox网络结构图[10]

编码器是为解码器计算一组特征来恢复对象的 3D 形状。前九个卷积层使用 ImageNet上预训练的VGG16的相应批量归一化层,利用ReLU激活,用于从 224 × 224 × 3 图像中提取 512 × 28个特征张量。这种特征提取之后是三组2D卷积层、批量归一化层和ELU层,将语义信息嵌入到特征向量中。在Pix2Vox-F中,第一卷积层的核大小为12,而其他两个的核大小为32。卷积层的输出通道数从512开始,后续层的输出通道减少一半,最终达到128。在Pix2Vox-A中,三个卷积层的核大小分别为32、32、12。三个卷积层的输出通道分别为 512、512 和 256。在第二层卷积层之后,Pix2Vox-F 和 Pix2Vox-A 中内核大小分别为 32 和42的最大池化层。Pix2Vox-F 和 Pix2Vox-A 生成的特征向量大小分别为2048和16384。

解码器负责将 2D 特征图的信息转换为 3D 体积。Pix2Vox-F和 Pix2VoxA中有五个 3D 转置卷积层。具体来说,前四个转置卷积层的内核大小为43,步幅为2,填充为1。还有一个额外的转置卷积层,有13个滤波器。每个转置卷积层后面都有一个批量归一化层和一个 ReLU 激活,除了最后一层后面跟着sigmoid函数。在Pix2Vox-F中,转置卷积层的输出通道数为128、64、32、8和1。

细化器可以看作是一个残差网络,旨在纠正3D体积的错误恢复部分。它遵循具有 U-net方法[11]的3D编码器-解码器的想法。在编码器和解码器之间的U-net连接的帮助下,可以保留融合体积中的局部结构。具体来说,编码器有三个3D卷积层,每个卷积层有43个过滤器,填充为2,然后是批量归一化层、泄漏ReLU激活和内核大小为23的最大池化层。卷积层的输出通道数分别为32、64和128。编码器最后是两个尺寸为2048和8192的全连接层。解码器由三个转置卷积层组成,每个卷积层有43个滤波器,填充为2,步幅为1。除了最后一个转置卷积层后面跟着sigmoid函数,其他层后面是一个批处理归一化层和一个ReLU激活。

2.3 基于SNN方法的网络原理

人工智能神经网络(ANN)受启发于生物神经元机理,使用计算机方法结合多层神经元学习,训练解决特定实际问题。图4展示了脉冲神经网络(SNN)与ANN的区别,在网络结构上二者是完全一样的,但是SNN使用的是生物动力方程,即为膜电位的方式在神经元之间传递信息,而ANN使用的是函数加权的方式。

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

图4 ANN与SNN比较图

神经元之间传递信息的过程是通过电化学信号的传递实现的。当一个神经元受到刺激时,它会激发一个电冲动,也称为动作电位。这个动作电位沿着神经元的轴突传播,并传递到突触。在突触处,神经元释放神经递质,这是一种化学物质,可以与突触后膜上的受体结合。当神经递质与受体结合后,突触后膜上的离子通道会打开,使得离子可以流动,进而引起膜电位的改变。这个膜电位的改变会进一步触发下一个神经元产生动作电位,从而实现信息的传递。

在SNN中,神经元之间的连接是稀疏的,并且信息传递是通过脉冲序列完成的。每个神经元都根据接收到的脉冲序列调整自己的脉冲频率和发放模式,从而实现学习、记忆和信息处理等功能[12]。在实际训练过程中,由于脉冲神经元的传递函数通常是不可微的,这使得传统的基于梯度的优化方法难以应用。此外,SNN中的时间延迟和脉冲信息使得网络的动态行为变得复杂,增加了训练的难度。为了解决这些训练难点,研究者们正在不断探索新的训练方法和算法。例如,基于脉冲时间依赖的突触可塑性(Spike Timing Dependent Plasticity,STDP)可以用于训练SNN[13]。STDP是一种根据神经元发放时间的相对顺序来调整突触权重的规则,通过调整突触权重可以改变神经元的响应特性。

三.研究实现

3.1 基于CNN的方法

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

图5 E2V模型

参考pix2vox与Unet网络的原理,图5中文献[9]提出了一个适用于事件流的E2V模型,模型构建代码见附录。

3.2 基于SNN的方法

SNN的训练方法主要包括无监督学习规则、基于ANN的间接学习算法和BP有监督直接学习算法。无监督学习规则通过调整突触权重来模拟神经元的交互,基于ANN的间接学习算法将传统ANN的训练结果直接应用于SNN,而BP有监督直接学习算法则需要针对SNN的非线性特性进行改进。在本文中鉴于已有E2V模型,尝试了ANN2SNN的方法,但是没有得到结果。

四.研究结果

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

图6 基于E2V模型3D重建结果[9]

分析重建结果,重建物体离真实值仍有差距,这是由于事件序列相较于完整的RGB图像丢失绝大部分纹理信息,重建的精度会较差。但事件序列样本大小远小于RGB图像序列,该模型会有更快的响应,更加适合于如自动驾驶,需要系统能快速响应的场景。

五.结论

初步结果表明,文献[9]提出的方法可以创建视觉上可识别的3D体素重建。如表1所示,基于的测试,在对 832个数据的小数据集进行训练100个 epoch 后模型的重建体素结果与现有的一些基 RGB图像的3D重建方法相当。

表1 基于RGB的模型的MIOU分数

文献阅读笔记系列一:事件相机3D重建的方法探究,数码相机,3d

在未来的工作,会继续尝试ANN2SNN的方法,期望得到更快响应的系统。

参考文献文章来源地址https://www.toymoban.com/news/detail-796683.html

  1. Gallego, G., Delbruck, T., Orchard, G., Bartolozzi, C., Taba, B., Censi, A., Leutenegger, S., Davison, A. J., Conradt, J., Daniilidis, K., & Scaramuzza, D. (2022). Event-Based Vision: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1), 154–180. https://doi.org/10.1109/TPAMI.2020.3008413.
  2. KIM H, LEUTENEGGER S, and DAVISON A J. Real-time 3D reconstruction and 6-DoF tracking with an event camera[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 349–364. doi:10.1007/978-3-319-46466-4_21.
  3. 徐齐,邓洁,申江荣等.基于事件相机的图像重构综述[J].电子与信息学报,2023,45(08):2699-2709.
  4. KOGLER J, SULZBACHNER C, HUMENBERGER M, et al. Address-Event Based Stereo Vision with Bio-Inspired Silicon Retina Imagers[M/OL]//Advances in Theory and Applications of Stereo Vision. 2012. http://dx.doi.org/10.5772/12941. DOI:10.5772/12941.
  5. IENG S H, CARNEIRO J, OSSWALD M, et al. Neuromorphic Event-Based Generalized Time-Based Stereovision[J/OL]. Frontiers in Neuroscience,2018. http://dx.doi.org/10.3389/fnins. 2018.00442. DOI:10.3389/fnins.2018.00442.
  6. REBECQ H, GALLEGO G, MUEGGLER E, et al. EMVS: Event-Based Multi-View Stereo—3D Reconstruction with an Event Camera in Real-Time[J/OL]. International Journal of Computer Vision, 2018: 1394-1414. http://dx.doi.org/10.1007/s11263-017-1050-6. DOI:10.1007/s11263-017-1050-6.
  7. XIAO K, WANG G, CHEN Y, et al. Event-Based Dense Reconstruction Pipeline[J].
  8. ALEXIS B, WANG ZihaoW, COSSAIRT O, et al. E3D: Event-Based 3D Shape Reconstruction.[J]. arXiv: Computer Vision and Pattern Recognition,arXiv: Computer Vision and Pattern Recognition, 2020.
  9. H. Chen, V. Chung, L. Tan and X. Chen, "Dense Voxel 3D Reconstruction Using a Monocular Event Camera," 2023 9th International Conference on Virtual Reality (ICVR), Xianyang, China, 2023, pp. 30-35, doi: 10.1109/ICVR57957.2023.10169359.
  10. H. Xie, H. Yao, X. Sun, S. Zhou and S. Zhang, "Pix2Vox: Context-Aware 3D Reconstruction From Single and Multi-View Images," 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019, pp. 2690-2698, doi: 10.1109/ICCV.2019.00278..
  11. O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI 2015.
  12. Ming Z ,Zonghua G ,Gang P .A Survey of Neuromorphic Computing Based on Spiking Neural Networks[J].Chinese Journal of Electronics,2018,27(04):667-674.
  13. Amirhossein Tavanaei, Anthony Maida. BP-STDP: Approximating backpropagation using spike timing dependent plasticity. Neurocomputing, Volume 330, 2019, Pages 39-47, ISSN 0925-2312,https://doi.org/10.1016/j.neucom.2018.11.014.

到了这里,关于文献阅读笔记系列一:事件相机3D重建的方法探究的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 经典文献阅读之--Calib Anything(使用SAM的无训练标定雷达相机外参)

    Camera与LiDAR之间的外部标定研究正朝着更精确、更自动、更通用的方向发展,由于很多方法在标定中采用了深度学习,因此大大减少了对场景的限制。然而,数据驱动方法具有传输能力低的缺点。除非进行额外的训练,否则它无法适应数据集的变化。随着基础模型的出现,这

    2024年02月02日
    浏览(38)
  • 经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全)

    之前了解了很多BEV的相关操作,但是基本上要么是激光和视觉结合,要么是纯视觉完成的2D激光投影这两种,而那种3D Occupancy方法可以利用栅格的方法完成纯视觉占据栅格的生成。《VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion》就是这种方法对于被遮挡的物

    2024年01月23日
    浏览(51)
  • 【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

    标题:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion 作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu 来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023) 这是佳佳怪分享的第2篇文章 多视角雷达-摄像头融合三维物体检测为自动驾驶提供了更

    2024年02月12日
    浏览(73)
  • 【文献阅读笔记】CVX使用常用替换公式

    记录本次仿真使用CVX进行求解使用到的替换公式和替换技巧。 使用square_pos表示平方 square_pos(X)=MAX(X,0).^2 例如: x 2 x^2 x 2 表示为square_pos(x) 使用inv_pos表示分式, inv_pos(X) = 1./X 例如: 1 / x 1/x 1/ x 表示为inv_pos(x) 使用rel_entr表示log函数的应用 rel_entr(x,y) = xlog(x/y) 或者 rel_entr(x+1,x

    2024年02月14日
    浏览(55)
  • 【论文阅读】PSDF Fusion:用于动态 3D 数据融合和场景重建的概率符号距离函数

    PSDF Fusion: Probabilistic Signed Distance Function for On-the-fly 3D Data Fusion and Scene Reconstruction We propose a novel 3D spatial representation for data fusion and scene reconstruction. Probabilistic Signed Distance Function (Probabilistic SDF, PSDF) is proposed to depict uncertainties in the 3D space. It is modeled by a joint distribution describing

    2024年02月03日
    浏览(66)
  • 论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭 论文地址: https://arxiv.org/abs/2403.02151 代码: https://github.com/VAST-AI-Research/Tr ipoSR 先来看下演示效果 TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并

    2024年04月14日
    浏览(45)
  • 文献阅读笔记 # 开源软件供应链安全研究综述

    纪守领,王琴应,陈安莹,赵彬彬,叶童,张旭鸿,吴敬征,李昀,尹建伟,武延军.开源软件供应链安全研究综述.软件学报. http://www.jos.org.cn/1000-9825/6717.htm 主要作者来自浙江大学、中科院软件所、华为 资源: pdf 本文总结了开源软件供应链的关键环节, 基于近10年的攻击事件总结了开源软

    2024年02月12日
    浏览(46)
  • 经典文献阅读之--Evaluation of Lidar-based 3D SLAM algorithms (激光SLAM性能比较)

    我们在日常使用激光SLAM算法的时候,常常会发现现有的算法只会和一些比较经典或者前作去进行比较,很多时候我们更希望对主流的激光SLAM方法进行性能比较。之前作者转载过一篇文章《常见不同3D激光SLAM方案对比》。但是对比的算法有限。现在瑞典Lule科技大学评估9种最常

    2024年02月02日
    浏览(40)
  • UTAustin最新提出!无相机姿态40秒重建3DGS方法

    作者:Zhiwen Fan | 编辑:3DCV 添加微信:dddvision,备注:3D高斯,拉你入群。文末附行业细分群 标题:InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds 链接:https://arxiv.org/pdf/2403.20309.pdf 本文介绍了一种名为InstantSplat的高效框架,用于从稀疏无位姿的图像中快速重建

    2024年04月27日
    浏览(37)
  • colmap多相机重建多场景及数据库数据快速修改方法

    1 colmap流程 1.1 新建项目   首先打开colmap,然后创建新的project,其中数据库目录和名称自己选定,注意不要将它放到图像目录下即可。然后images选择的是图像目录(比如我这里是guangxi/section1),这个目录下应该包含有不同的文件夹,每个文件夹存放同一个相机拍摄的图像。

    2024年02月13日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包