深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎

这篇具有很好参考价值的文章主要介绍了深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Apple Vision Pro传感器分布

Apple Vision Pro目前公开出的产品形态包含众多传感器,以强化设备的深度信息感知能力,实现最佳的三维空间虚实结合效果。其中视觉传感器包括以下几类:RGB摄像头,红外摄像头,dToF激光雷达,结构光相机,以及鱼眼红外摄像头。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro正面传感器分布图

(图片来自苹果公司官方公开信息)

Apple Vision Pro 的外部包括以下几种视觉传感器

  • 8 个摄像头

  • 2个前向的RGB摄像头,支持前向拍摄和VST

  • 4个向侧前方的鱼眼红外摄像头,支持6DOF追踪

  • 2个向下的红外摄像头,支持躯干追踪和下方的手势追踪

  • 2个红外激光器,发出红外光对操控区域的躯干、腿部、膝盖、手以及环境进行照明,以辅助红外摄像头和鱼眼红外摄像头对相应区域内活动单元的捕捉

  • 1 个dToF LiDAR激光雷达,沿用iPhone pro后摄的dToF LiDAR形式,支持3D拍摄、空间重建、空间的深度感知与定位

  • 1个结构光相机,与iPhone的前置结构光Face ID类似,苹果公司称之为TrueDepth摄像头,支持FaceTime应用的面部扫描功能和前向区域的精细手势追踪

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro内侧传感器分布图

(图片来自苹果公司官方公开信息)

Apple Vision Pro 的内部有 4 个红外摄像头和一圈 LED,推测应该是采用结构光方案的光场信息进行眼动追踪和眼部表情分析。

苹果公司在Apple Vision Pro上使用了丰富的传感器硬件,其中与其他VR厂商的尝试所明显不同的是,苹果公司使用了激光雷达LiDAR和结构光传感器,并取消了手柄而转用手势追踪来进行交互。这两者的结合,配合苹果公司优异的UI界面效果,实现了在同类硬件设备中非常突出的表现,让第一批Apple Vision Pro的实机体验者们对其大部分功能给出了极高的评价。

Apple dToF LiDAR的技术路线

苹果公司在其品牌下的系列产品上均使用了由索尼独家开发的dToF LiDAR激光雷达,并陆续搭载在iPad Pro,iPhone 12 Pro,iPhone 13 Pro,iPhone 14 Pro,以及即将发行的Apple Vision Pro产品上。在2013年苹果收购以色列3D传感公司PrimeSense以及之后的一系列收购动作中,透露出苹果公司在进行消费电子产品上对3D功能的规划和长期布局。自2013年之后苹果公司进行了长时间的技术积累,聚焦在3D传感领域和dToF激光雷达方案上的成果最终于2017年和2020年陆续发布,包括2017年在iPhone X上推出了前置结构光的Face ID功能,和2020年在iPad和iPhone 12 pro上推出了与后置摄像头组合使用的dToF LiDAR激光雷达。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

iPhone 12 Pro的LiDAR处于后摄模组的右下角

(图片来自苹果公司官方公开信息)

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

苹果和索尼合作的dToF LiDAR模组形态

(上图来自数码博主拆机视频,下图来自苹果公司官方公开信息)

从上图中可以看到,Apple Vision Pro这款产品,其正中间的激光雷达的形态,与苹果公司前期发布的一系列产品所搭载的dToF LiDAR激光雷达模组几乎完全一致。据推测这款LiDAR使用的收光端SPAD面阵芯片方案为IMX 590,是苹果公司与索尼的定制款芯片。但因为索尼近期的一系列商业动作,该型号未来可能会因为改版而发生一些变化,即整个dToF LiDAR的收发光核心芯片均有索尼独家提供。之前这款LiDAR所使用的发光端VCSEL芯片,一直是由Lumentum和WIN Semi公司提供,而业内专家判断索尼希望将发光端VCSEL芯片替换为索尼的自研芯片,索尼可能希望将VCSEL和Driver做成VCSEL on driver的形式,以实现更优的性能和功耗。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

各种基于iPhone所开发的3D应用

(根据自网络及苹果公司公开信息整理)

目前苹果公司在其高端机型上广泛使用的dToF激光雷达是由索尼独家设计并供应,其搭载的核心接收端芯片可能方案为IMX590,是一款可以输出数百到上千个散点的SPAD面阵产品。苹果公司通过将这个传感芯片生成的散点阵列深度图像与主摄RGB图像进行融合,从而以算法实现较高分辨率及精度的Mesh网格和RGBD融合深度图。第三方公司利用三维信息开发了各类3D应用及特效功能,包括知名的JigSpace,Roomplan,Measure,Polycam,3D Scanner,Canvas,Playground AR,以及知名公司Snapchat,IKEA Place的3D应用。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

苹果公司iPhone影像系统的ISP架构

(根据苹果公司官方公开信息整理)

基于LiDAR的相关应用开发不仅只来自于第三方,苹果公司也在iPhone的影像系统中不断基于LiDAR开发其ISP图像处理框架。在2020年的iPhone 12 Pro加入dToF LiDAR之后,苹果公司在其ISP图层处理中增加了“光分布图”,dToF LiDAR本身在测量深度的同时就可以获取红外光分布图,而且在2022年之后苹果将整套依靠光感与深度驱动的影像系统称为Photonic Engine(光子引擎),并将深度融合在图像处理过程中前置,置于3A层(自动曝光,自动白平衡,自动对焦)后的第一层,成为后续图层渲染等处理的重要依据。另外,3A层的自动对焦功能也是基于LiDAR的高帧率深度信息来实现的,LiDAR自动对焦可以极好地弥补摄像头PDAF在弱光、明暗交替等场景下较弱的自动对焦能力。

Apple Vision Pro中展示的dToF LiDAR相关功能

苹果MR设备上所搭载的dToF LiDAR沿用了通过iPhone所积累的三维重建能力,通过Apple Vision Pro设备中间位置的LiDAR能够感知所处空间和房屋的3D空间结构,并将该空间结构运用到后面将介绍到的各类功能的方方面面之中。这个3D空间结构可以通过LiDAR预扫描建立而成,也可以通过高帧率的扫描来实时更新周边环境信息。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro发布会3D空间重建

(图片来自苹果公司官方公开信息)

>>> VST功能 <<<

在展开Apple Vision Pro的相关功能分析之前,我们需要先介绍VST(Video See Through 视频透视)技术。Apple Vision Pro是一款MR(Mixed Reality 混合现实)设备,MR设备不同于VR(Virtual Reality 虚拟现实)和AR(Augmented Reality 增强现实)眼镜的地方是其可以实现VR的沉浸式体验,也可以实现类似于AR不摘掉头显设备直接看到外部世界的效果。AR设备是直接投过镜片看到真实世界,也称为OST(Optical See Through 光学透视)技术,通过特殊的透镜设计(如光波导镜片,Birdbath等)将数字画面投射到半透明的显示装置上。

透过MR设备本身并不能看到外部环境,MR设备的形态与VR相似,但是MR设备具有VST功能,可以看到外部环境。目前市面上大部分VR设备也具备摄像头透视和安全边界功能,但基本上只提供非常低分辨率和低帧率的环境视频,当VR游戏用户离开初始位置太远且超出安全边界时游戏画面会消失,转而显示摄像头(或红外摄像头)拍摄的外部世界,通过该功能保护玩家使其留在安全边界之内。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

VR设备的安全边界(图片来自网络公开信息)

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro的显示示例:VST真实环境和虚拟界面与模型的叠加

(图片来自苹果公司官方公开信息)

Apple Vision Pro是通过前向摄像头代替人眼对外部真实环境进行拍摄,再通过VST技术将拍摄的画面显示在左右眼两个显示区域。其在设备上方增加了实体旋钮来一键切换MR眼镜的工作模式,使用者可以通过物理旋钮来切换模式,选择是否看到外部环境。这里的外部真实环境(如上图背景中的工作室)是由VST拍摄的实时影像,而显示在空间中的虚拟界面和虚拟模型以及它们在桌面投射的阴影,都是通过visionOS系统将虚拟图像融合在VST影像之中。也就是说,用户透过Apple Vision Pro看到的内容,没有完全真实的外界,都是通过显示投射在用户眼中的。

为了实现VST和虚拟界面的最佳融合,虚拟阴影的最佳投射效果,需要由LiDAR提供外部真实环境的深度信息来实现最佳比例的透视关系。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro保持交互感的VST与外屏

(图片来自苹果公司官方公开信息)

当然除了固定模式外,苹果公司也展示了自动结合VST和沉浸模式的功能,在有人接近的时候将人和其周边渐变地显示出来,并将自己的眼部图像显示在外界屏幕上,使得用户在佩戴头显设备的同时能与外界保持良好的交互感。

>>> 3D Camera功能 <<<

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro记录的3D生活片段

(图片来自苹果公司官方公开信息)

3D Camera是记录3D信息的视频,是一个让大多数体验者耳目一新的应用,留存人们珍贵的三维记忆,同时未来很可能对视频行业形成冲击与颠覆。其实现方法是类似观看3D电影的呈现方式,通过Apple Vision Pro前部的两个RGB摄像头同时拍照或录制,在观看时再通过左右眼两个显示区域的分别显示,过程中不需要双目深度的参与,通过左右眼分别观看具有视差的两幅影像,使得观看者产生强烈的3D观感。

Apple Vision Pro拍摄的3D影像是由左右眼从两个视频角度的观察并由大脑自然地进行图像融合,同时得益于头显设备极强的沉浸感而产生了非常优秀的3D效果,并非基于LiDAR或双目深度。但为了使得3D影像以合适的透视比例关系锚定在地面和桌面等场景上,3D Camera需要配合LiDAR将影像投射在VST画面中,以产生最栩栩如生的场景还原。

 

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

RECORD3D的视频拍摄效果,RGBD融合示例

(上图根据网络公开信息整理,下图截取自灵明光子Demo)

另外,基于dToF LiDAR的RGBD fusion数据本身也可以开发类似的3D应用,如在之前就有第三方公司开发过类似的应用RECORD3D,通过LiDAR记录深度信息,iPhone Pro可以记录3D深度点云信息来合成3D视频。当结合Photogrammetry算法和LiDAR深度后,可以直接扫描生成3D模型,例如Polycam的相关应用。

>>> Mindfulness功能 <<<

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Apple Vision Pro的沉浸冥想功能

(图片来自苹果公司官方公开信息)

Mindfulness app可以创造空间感的视觉效果,让用户沉浸其中。该功能需要用到对房间的空间感知,来将特效融合在周边环境之中,以模拟真实环境中出现的虚拟特效,达到凭空出现特效来以假乱真的目的,利用特效的不真实感和VST的真实感之间的反差,让大脑认为VST的影像是真实环境。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Vision Pro的墙面投射功能,Mesh算法示例

(上图来自苹果公司官方公开信息,下图截取自灵明光子Demo)

用户可以将任何材质投屏到墙面、桌面、地面,例如将蓝天或星空投射到天花板。LiDAR的Mesh功能帮助Apple Vision Pro实现3D平面感知及锚定的功能,仅有双目视觉的硬件设备无法实现稳定和快速的平面锁定,因为在平面类的无纹理场景,摄像头的拍摄信息无法快速稳定地获取标志点,任何平面投射类的功能都需要LiDAR将虚拟信息稳定地贴附在平面表面。

>>> Occlusion功能 <<<

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Occlusion前后遮挡功能

(图片来自苹果公司官方公开信息)

当用户处于VST模式时,Apple Vision Pro所拍摄的周边环境需要和visionOS系统本身的虚拟界面,形成合理的漂浮和遮挡(Occlusion)关系。目前根据体验者的口述,在VST中显示的用户自己的手是通过抠图生成的,会有轻微的边界模糊和抖动感。而为了实现最佳的空间透视关系,需要将手、界面、VST环境、VST背景依次排序,并且保持相对关系的稳定和过渡衔接流程顺滑。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

VST下显示的示例(图片来自绘制)

当使用MR眼镜时,用户的手处于最接近MR设备的位置,蓝色区域为虚拟界面,灰色区域为由VST所拍摄的外部真实环境(并非3D物理空间,而是两幅画面的拼接,由人眼和人脑系统自动生成融合后的画面)。为了使得各个层面之间的相对位置关系正确,手能够正确地出现在蓝色区域的前方,需要由LiDAR参与遮挡关系的形成。一种途径是dToF LiDAR和RGB摄像头形成RGBD fusion的稠密点云深度图,来确认空间物体的相对位置关系;另一种途径是由LiDAR和两个前置摄像头共同完成整个3D空间的重构,使得VST中显示的物体本身具备3D关系(或简单看做将场景中的各类物体分割出前后和上下图层的关系),类似于Roomplan标记空间内物体的边线和面,通过立方体代表每个物体的空间体积和位置关系。仅由摄像头生成的VST画面和手部抠图显示出的用户的手,在人脑判断过程中可以看出所呈现的并不是最完美的Occlusion效果。

手部的捕捉和追踪在红外摄像头的全景范围内都可以实现,并不是只在结构光相机的视场区域。我们预测在结构光的区域内会有一些用户自定义的精细手势,但整体的手势追踪由红外摄像头完成,遮挡关系的建立由LiDAR完成,多个传感器之间会有精细的融合逻辑。

3D视觉的产生及其与MR应用的关联

为什么众多业内人士和科技行业从业者,在体验过Apple Vision Pro后得到了很好的3D视觉体验,产生这个体验的底层原理是什么,为什么我们的大脑和双眼会通过这种方式来协同工作而不是其他的方式?我们可以从哺乳动物的进化来理解这个结果,因为动物的全景视觉是一种防守型的视觉策略,而双目视觉属于攻击型策略。自然界中,食草动物偶蹄类的眼睛是对称开放式的,视场角FOV非常大,接近360度,可以在吃草时从任何方向发现靠近自己的捕食者。然而捕食者如狮虎狼豹等进化出的是双目视觉,通过基线和双目视差来判断自己和猎物之间的距离关系,从而判断发起攻击的时机。

>>> 3D视觉的来源 <<<

那么双目视差为什么能让我们看到立体的物体,3D感是来自哪里?这里包括心理感知和生理感知两个层面。

在心理感知层面,人类会因为仿射、阴影、遮挡、纹理、先验知识等的视觉暗示判断2D的图像具有3D的效果。

  • 仿射:即“近大远小”透视,成像的过程是物体离人眼越近在人眼中的成像就越大

  • 阴影:自然环境中光照来自不同方向,在物体表面光照会产生不同的高光和阴影效果,我们通过对阴影的推理来判断物体的三维形状

  • 遮挡:近的物体会遮挡住远的物体,通过互相遮挡关系可以判断物体间的远近差异

  • 纹理:因为纹理有着动静规律而高度重复的特征,从而产生了立体视觉感

  • 先验知识:在大量的经验总结之后,大脑会对物体与场景进行归纳,来通过常识判断物体的实际大小和远近

在生理感知层面,立体视觉的形成主要包括双目视差、移动视差、聚焦模糊。

  • 双目视差(binocular parallax)

    当我们左右眼看同一个物体时,通过左右眼获取同一个物体不同的图像,在各自视网膜上形成该物体的两个像,然后分别经两侧视神经传到皮层视中枢的同一区域。这两张画面会被大脑所融合(fusion),融合过程存在着复杂的视觉神经网络的仿射和处理过程,而融合成为完整、单一的物象。最终由大脑通过图像间存在的立体视差(stereopsis)来判断物体距离,一般而言,当两个视野上具有相近或相关的图形、明度或颜色的物象时,容易发生双眼视象融合。否则为双眼竞争,可见双眼播放不同画面的一些医学研究案例,这里就不再赘述。

  • 移动视差(motion parallax)

    当距离观察者不同的物体在运动时,位移距离在观察者眼中是不同的。对于相同的位移距离,近处的物体位移大,远处的物体位移小,我们常见的鸽子就是通过这种位移的方法不断移动头的位置,产生移动视差,来观察地面的物体。相比3D影院,MR头显设备可以提供移动视差,从而提供真实的沉浸感。

  • 聚焦模糊(accommodation)

    人眼的睫状肌具有相机镜头的调焦功能,通常我们人眼观察的位置是对焦的,而焦外是模糊和虚化的,这是因为人眼的生物结构形成了这样的结果,大脑也长期以来适应这样的过程。

>>> 晶状体的工作机制 <<<

当睫状肌向内收缩时,睫状小带松弛,晶状体厚度增加(变凸),前后的曲率增加。这个过程中,就是下图的上方形态变成下方形态的过程,左边的透明球体为晶状体,右侧的粉红色和上方的粉蓝色区域为睫状肌,黄色和绿色的细线是睫状小带,睫状肌和睫状小带共同牵引晶状体。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

眼睛晶状体的侧面结构图

(图片来自网络公开信息)

当睫状肌改变时,晶状体被挤压或拉伸,从而改变了人眼对焦的距离。不同距离的对焦过程如下图所示,当晶状体较薄时,远处的蓝色光线聚焦在视网膜上,人眼看蓝色清楚,红色和绿色自然模糊。当晶状体较厚时,近处的绿色光线聚焦在视网膜上,人眼看绿色清楚,蓝色和红色自然模糊。这也是为什么人眼需要在近距离使用一段时间之后,做一些远眺和放松,来恢复睫状肌和晶状体的疲劳与紧张状态,否则睫状肌的长期紧绷会挤压眼球变凸,导致晶状体无法清晰聚焦远处的光线(蓝色),从而导致眼突和视力变差。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

晶状体在不同厚度下,将不同距离的光线聚焦在视网膜上

(图片来自网络公开信息)

>>> MR设备如何重塑3D自然视觉 <<<

了解了3D视觉的来源,下面我们来看一下近场的显示设备是如何改变人类在真实环境中自然的3D视觉,以及为什么有的头显设备会使人产生不适感,使用LiDAR如何帮助减少这类不适感。

假设有一个非常优秀的显示设备,所投射的所有影像都非常真实,并且我们在影像中移动也无法感到不真实感,那么这个设备不会对我们的3D视觉产生任何影响,甚至我们会误认为这就是真实的现实。目前的头显设备就是因为难以满足这些特点,导致人脑会产生判断混乱,而产生不适感。

首先我们来了解大脑的原理,大脑主要依靠视觉、前庭、身体感知这三条途径来综合判断人体的位置、姿态与运动状态。

  • 视觉:视觉能直接观察身体所处的三维环境,大脑会通过自身和环境的相对位置信息,推断出自身目前的运动状态,类似于3D SLAM的工作原理

  • 前庭:人耳的前庭内有三个相互连通的半规管,管内含有淋巴液,是脊椎动物内耳迷路中掌管平衡感的器官。这三个半规管,就类似于一个无穷多轴的IMU,人体运动时,大脑就会通过半规管推断出目前的姿态和运动加速度。

  • 身体感知:身体感知是身体肢体对运动过程的直接感知,肢体相当于具备多轴、加速度计、力传感器、触觉传感器等复杂运动神经和感觉神经系统的实体,神经系统将肢体的感知反馈给大脑,大脑通过大脑皮层、基底节和小脑等多个区域协同完成对肢体的控制。

因为大脑是依靠视觉、前庭、身体感知这三条判断依据来确定真实感,那么我们来分析一下引起3D眩晕的两个主要原因:

  • 大脑和身体的判断相冲突

  • 当身体和VR眼镜显示的画面不同步、不及时、不准确时,会导致视觉和身体感知的冲突:比如,进行VR游戏时出现“身体移动,画面不变”,这种情况下前庭和身体感知已变化,但视觉未变化;或“身体不动,画面变动”,这种情况下前庭和身体感知无变化,但视觉发生变化;或各种组合情况的不断重复发生。这些情况会导致大脑产生疑惑和判断紊乱,容易出现视眩晕、紧张、疲劳、头痛等不良反应。

  • 因为显示屏刷新率,渲染和定位的速度精度等技术的限制,显示端无法给眼睛投射最拟真的图像。目前随着Apple Vision Pro设备在这些方面的提升,以及精细的UI界面交互感,使得引起眩晕的原因得到大幅缓解。在其他VR场景下,依靠万向跑步机和体感机,也可以模拟出更真实的脑身一体感。

  • VAC现象(Vergence-Accommodation Conflict辐辏调节冲突)

  • 视觉感知中双目视差与聚焦模糊之间出现了冲突,这方面原因引起的3D眩晕也是一个重要影响因素。

  • MR设备的佩戴者的视点始终聚焦在一个固定距离的虚拟屏幕上,不能随着显示的虚拟物体的远近而重聚焦(refocus),通过设备的显示屏观察远处的景象时,人眼通过双目视差感知到高山很远,但accommodation下人眼并没有实际聚焦到那么远;观察近处的物体时,眼睛仍然聚焦在屏幕上,这与双目视差所呈现的实际距离产生了偏差,从而导致大脑产生深度感知冲突,进而引起视觉疲劳。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

Vergence和accommodation距离的差异

(引用自维基百科)

vergence辐辏:上图红线,两只眼睛朝内(所视物体靠近)或朝外(所视物体远离)转动,双眼的视线相交于同一深度的点。accommodation调节聚焦:上图黄线,两只眼睛看到的分别处于屏幕上的不同位置。

由于这两方面的影响,大脑和体感,大脑和眼睛,三者之间的相互冲突导致人们在佩戴头显设备时会自然地感到不适,尤其是在佩戴初期阶段。而LiDAR是如何参与并影响VST,来降低VAC现象的呢?首先LiDAR会对VST视野中被视的物体区域所有的物体进行扫描,实时高帧率地获得所视范围内各个物体的距离信息,不论是人眼对焦的物体,或是焦外的物体。

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

通过MR眼镜做VST重对焦的示意图(图片来自绘制)

如上图所示VST中,在用户视野的瞬时转换时,显示设备需要模拟真实环境中人眼的重对焦过程,即由原来的蓝圈位置对焦瞬时切换到白圈位置对焦。这个过程中,除了内侧设备的人眼跟踪功能以外,还需要对外界信息进行符合规律的模糊和虚化,这个规律跟外界物体与观察者的位置相关,也就是和LiDAR所实时测量的环境实时深度信息相关。如果仅仅依靠算法计算,对焦外区域进行特定规则的均匀模糊和虚化,则无法模拟每个物体在真实空间最拟真的虚化状态,使得大脑产生不真实感。

灵明光子ADS 6401技术及功能详解

灵明光子的ADS6401产品,是dToF LiDAR的接收端芯片,接收端芯片的性能基本上定义了整个激光雷达系统的功能上限。ADS6401实现了对iPhone LiDAR scanner的超越替换,不仅在分辨率上具备比其576个散点更高的“960点的散点输出”,在功能性上更有可实现远高于其30FPS工作帧率的“4分区分时曝光的120/240 FPS设计”。

ADS6401感光区尺寸为1/6.76,对角线长度为2.6mm,实现有效像素210x160共33600个SPAD像素,像素尺寸10μm,芯片总面积为3.6 x3.4mm。有效深度输出为240个点/分区,4分区整合下为960个点;芯片支持灰度图和深度图两种方式输出,PDE@940nm14~20%,测距范围支持0-19m。带有片上温度检测和电压检测;芯片通过片上驱动信号,可以输出高频脉冲驱动外部driver,波形可调控;可在主/从两种模式下,利用VSYNC信号和RGB摄像头同步;

深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎,3d,交互

ADS6401可以匹配多种发光端光学设计,支持点线面等不同的发光模式,在低功耗情况下呈现出色的测距性能。以约500点的散点投射的参考设计方案为例,在0.15m-6m测距距离内的芯片功耗约为80mW,整体系统功耗约为230mW(30FPS下,包含芯片功耗,发射端功耗,以及用户SoC上进行深度计算功耗);在0.15-6m范围内的近距离测量精度达到了5mm,远距离下精度小于1cm;在8m下的精度可达到1cm即0.125%,最远测距可配置到19m。灵明光子通过优异的系统方案设计,使得ADS6401在室内外均表现出优异的性能,在室外工况下达到了50Klux下测距6m的抗阳光水平。

ADS6401芯片的输出数据为统计直方图形式,配合客户的主控芯片进行计算深度,相比于片上直出深度的模式,能够开放更全面的测距功能。通过客户自定义的统计直方图数据处理方式,可以攻克dToF技术中的一些关键难点,包括盖板串光致盲和pile-up等现象,满足客户对于近距离盲区、测距精度、鲁棒性的基础要求;支持在SoC上做测距置信度的计算和多峰检测等高级信号处理功能;满足客户实现点云滤波、抗玻璃干扰(玻璃检测)、消除多路径干扰等高级需求。并且,统计直方图数据能够供研究者和开发者进行创新应用的开发,包括利用直方图信号对测距滤波,环境光信号分析,以及在医学和医疗方面的荧光寿命测量。SoC侧的算力消耗在30FPS下约为0.5GOPS,适用于CPU、DSP、NPU等多种计算架构,灵明光子可以提供相应的计算加速参考代码。

ADS6401芯片具备高效的多区控制和多区数据直出能力,可以利用4分区实现 120/240 FPS的超高子画幅帧率,为高速影像和AR交互提供支持。同时,通过配合分区/单区不同类型的激光驱动模式,可以实现分区/单区的分别工作调用,在此基础上能够进一步降低全画幅的分辨率要求,最终实现整体系统功耗的进一步降低,将发射端和接收端的总功耗控制在100mW以下。

ADS6401显著增强摄像头的工作能力,实现自动对焦、电影模式、夜景人像、图像处理等高级影像效果;完善了暗光环境中的自动对焦,为短视频拍摄提供“一镜到底”的效果;能做到在多个摄像头之间的无缝线性切换,视场角可在66x54度范围内覆盖;结合RGB的信息可以进行RGBD深度融合,具备生成丰富的焦外虚化和多样的背景特效处理的能力。

灵明光子Adaps已与高通Qualcomm和虹软Arcsoft公司合作,通过ADS6401实现了安卓阵营全球首款的dToF电影模式,并于2022年11月16日在三亚的高通年度骁龙技术峰会上进行了实机展示,搭载ADS6401的高通QRD手机实现了惊艳的手机电影模式效果。

灵明光子面阵产品系列

单光子雪崩二极管SPAD(Single Photon Avalanche Diode)是支持dToF(direct Time-of-Flight,直接飞行时间深度测量)技术的最前沿感知器件。通过结合SPAD器件与逻辑电路,类似ADS6401的散点面阵类芯片可以计算脉冲光从发射到返回的飞行时间来获取距离信息,实现了极低功耗、极高精准度、高帧率下的实时三维测量。dToF传感器可以和RGB摄像头结合,实现相辅相成的完美互补,将点云图从稀疏到稠密的多种类型完全覆盖,从而实现了对各类人体姿态和手势运动的捕捉与追踪。也可以结合IMU,搭建SLAM和3D mesh功能,有利于XR头显设备实现极致的虚实交互功能。同时,灵明光子已开发完善了算法体系,提供基础的RGBD融合、平面检测、手势识别等算法的基础原型,供客户进行二次开发。

除了散点形态的产品以外,灵明光子目前正在开发各种面阵型的产品,用于多种3D传感和激光雷达产品中,欢迎垂询。

* 关于苹果公司和索尼公司的信息均整理自公开信息渠道文章来源地址https://www.toymoban.com/news/detail-615686.html

到了这里,关于深度长文 | 解析Apple Vision Pro 的3D功能与LiDAR工作场景,灵明光子ADS 6401 虚实交互的驱动引擎的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 将Apple Vision Pro和visionOS与计算机视觉结合使用

    在2023年6月5日的WWDC大会上,苹果宣布推出多年来最大规模的硬件和软件组合产品。今年的“One more thing”(“还有一件事”)发布是苹果视觉专业版(Apple Vision Pro),这是一款集成了苹果生态系统的新型空间计算头戴式设备。 苹果视觉专业版是一个垂直整合的硬件和软件平

    2024年02月08日
    浏览(46)
  • Apple Vision Pro:空间计算的未来已来,你准备好了吗?

    “ 正如iPhone带我们进入移动计算时代,Apple Vision Pro将带我们进入空间计算时代。” 我虽然没有亲身体验,但观看了许多国内外第一批体验者的体验分享,看得出来,这些体验者都十分兴奋,根据他们的描述,我仿佛看到了科幻电影《头号玩家》里的世界即将到来。 2023年6月

    2024年02月08日
    浏览(46)
  • [visionOS][Apple Vision Pro][SwiftUI] 定义一个UIImage变量,可动态改变,并显示在Image控件

    实际上,不需要加.onChange也可以的,这个只是响应myImage变化,跟Image更新图片没关系。 用@State标记一个属性时,SwitfUI会自动监听这个属性的变更,当这个属性发生改变,SwiftUI 会自动重新计算绘制视图。

    2024年02月16日
    浏览(48)
  • (七)Unity VR项目升级至Vision Pro需要做的工作

    Vision Pro 概述 定位为混合现实眼镜,对AR支持更友好 无手柄,支持手(手势)、眼(注视)、语音交互 支持空间音频,相比立体声、环绕声更有沉浸感和空间感 支持VR/AR应用,支持多种应用模式。 Vision Pro技术特性 支持Metal 3图形API及材质,不支持Unity引擎手写Shader,支持Un

    2024年02月12日
    浏览(37)
  • 苹果头显Vision Pro深度解读3 苹果头显visonOS开发指南

    1  程序员visonOS开发指南   作为iOS开发者,切换到visionOS开发非常简单啊,过去的一些技术基本上都用得上。目前根据苹果WWDC官方的文档,视频,我们可以知道: 开发语言,使用的是swift object-c c c++等,swift当然作为首选。 开发界面,使用的是swiftUI, 如果要展示3D模型, 用Re

    2024年02月09日
    浏览(52)
  • 苹果眼镜(Vision Pro)的开发者指南(3)-【3D UI SwiftUI和RealityKit】介绍

    为了更深入地理解SwiftUI和RealityKit,建议你参加专注于SwiftUI场景类型的系列会议。这些会议将帮助你掌握如何在窗口、卷和空间中构建出色的用户界面。同时,了解Model 3D API将为你提供更多关于如何为应用添加深度和维度的知识。此外,通过学习RealityView渲染3D内容,你将能够

    2024年01月23日
    浏览(47)
  • PSEUDO-LIDAR++:自动驾驶中 3D 目标检测的精确深度

    论文地址:PSEUDO-LIDAR++: ACCURATE DEPTH FOR 3D OBJECT DETECTION IN AUTONOMOUS DRIVING 论文代码:https://github.com/mileyan/Pseudo_Lidar_V2 3D 检测汽车和行人等物体在自动驾驶中发挥着不可或缺的作用。现有方法很大程度上依赖昂贵的激光雷达传感器来获取准确的深度信息。虽然最近推出了伪激光雷

    2024年01月23日
    浏览(48)
  • 万字长文带你吃透SpringCloudGateway工作原理+动态路由+源码解析

    Spring Cloud 2.x 实 现 了 社 区 生 态 下 的 Spring CloudGateway(简称SCG)微服务网关项目。Spring Cloud Gateway基于WebFlux框架开发,目标是替换掉Zuul。 Spring Cloud Gateway主要有两个特性: 非阻塞,默认使用RxNetty作为响应式Web容器,通过非阻塞方式,利用较少的线程和资源来处理高并发请

    2023年04月08日
    浏览(49)
  • myCobot Pro600六轴机械臂与3D深度视觉:物体精确识别抓取堆叠

    随着时代的进步,各种精密的机械臂,人形机器人不断的问世。我们即将迎来到处都是机器人的高科技时代。为了跟上时代的脚步,我最近入手了一台myCobot pro 600机械臂,我主要是想要用它来学习机械臂相关得控制以及机器视觉的项目,给以后的实践中在本文中,我将记录

    2024年02月09日
    浏览(46)
  • (三)Unity开发Vision Pro——入门

    1.入门 本节涵盖了几个重要主题,可帮助您加快visionOS 平台开发速度。在这里,您将找到构建第一个 Unity PolySpatial XR 应用程序的分步指南的链接,以及 PolySpatial XR 开发时的一些开发最佳实践。 2.开发与迭代 有关先决条件、开发、迭代、部署和调试的信息,请参阅 开发和迭代

    2024年02月13日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包