编码机

全息视频VR通信技术

发布时间:2023/5/3 17:14:56   
公益中科 http://baijiahao.baidu.com/s?id=1699632906155947289&wfr=spider&for=pc

“全息”(Holography)即“全部信息”,这一概念是在年由英国匈牙利裔物理学家丹尼斯·盖伯首次提出,他也因此获得了年的诺贝尔物理学奖。全息技术是一种利用干涉和衍射原理来记录物体的反射,透射光波中的振幅相位信息进而再现物体真实三维图像的技术。它与物理学、计算机科学、电子通信及人机交互等学科领域有着密切的联系。广义上说,全息通信业务是高沉浸、多维度交互应用场景数据的采集、编码、传输、渲染及显示的整体应用方案,包含了从数据采集到多维度感官数据还原的整个端到端过程,是一种高沉浸式、高自然度交互的业务形态。结合6G技术,进行扩展与挖掘可获得包括数字孪生、高质量全息、沉浸XR、新型智慧城市、全域应急通信抢险、智能工厂、网联机器人等相关全息通信场景与业务形态,体现“人-机-物-境”的完美协作。

传统光学全息:光学全息的全部过程分为信息数据采集与信息图像重构两个阶段,采集阶段相当于照相机的拍摄过程,而信息图像重构阶段相当于洗照片的过程。

数字全息:由于全息图只是对物体的物光束和参考光波进行相干叠加时产生的一些列干涉条纹进行了记录,而要得到物体的再现像,就必须对全息图进行重新处理,数字全息是利用电荷耦合器件来代替传统的光学记录材料来记录全息图,将物体的物光信息数字化记录,便于存储、数字处理以及重现。它最早是由Goodman在年提出的。

计算全息:计算全息最早是由Kozma和Kelly提出,但是限于当时计算机技术水平的不足,计算全息一直没有发展起来,直到21世纪初期数码照相机的普及和计算机技术的发展成熟才又进入了发展时期。计算全息是一种数字全息领域的分支,这种新型的方法是利用计算机去模拟物体的光场分布,用算法去进行全息图的制作,该方法可以不依赖实物,而是基于该物体的数学描述进行全息图制作,实现了全息术从实际物体到虚拟物体的突破。计算全息三维显示技术是近年来将全息术、光电技术及计算机高速计算技术相结合发展起来的最具潜力的三维显示技术,与传统光学全息术相比具有灵活、可重复性好的特点。

目前,远程通信用户面临的痛点主要为:语音通话、视频通话存在着临场感差和交互通道单一等弊端;受限于通信网络性能,视频通话常存在网络波动影响通讯质量等问题;传输高质量的视觉通讯内容受制于传输带宽而难以实现的问题。其中全息通信主要解决第一个问题,而诸如6G等高性能网络主要解决后两个问题,赋能全息通信应用。

基于全息通信具有真实度高、参与感强和沉浸感佳的特点,全息通信可以应用于以下三类场景:一对多场景、一对一场景和多对多场景。

全息通信的关键技术包括内容采集、算法处理、传输、渲染和显示。

1内容采集

全息通信所需的动态三维内容又称作“体积视频”(VolumetricVideo),其采集方式可以分为纯彩色相机阵列采集和深度相机+彩色相机阵列采集。

彩色相机用几十甚至上百个彩色相机从多个角度捕捉人像和其动作,为了后期方便数据提取,通常会在周围布置绿幕。拍摄时,通过时间控制器控制相机阵列同步启动拍摄。

根据应用场景等不同,彩色相机阵列又可分为局部围绕式和60°围绕式。当仅需采集单面人体时,可以搭建小于°的相机阵列,仅用单反相机围成半圈甚至更小的范围。如果要采集人体60°全方位的数据,需要将相机阵列围成一圈,做成影棚的形态,这样可以同时采集人体各个角度的影像。

深度相机+彩色相机阵列

相较于纯彩色相机阵列,目前市场上的主流做法是通过深度相机搭载彩色相机阵列来完成。和单纯用彩色相机相比,加上深度相机后,生成的人物三维数据更加精细,细节表现会更好。例如脸部的三维效果更明显,可以清晰看到鼻梁的高度、嘴唇的轮廓等细节。

2算法处理

非三维重建处理主要指自由视点技术,自由视点技术对于不同的视角显示不同的图像,是一种相对“粗糙”的处理方式。

三维重建处理包括基于深度学习的三维重建和传统的三维重建。近年来,基于深度学习的三维重建算法的发展有雨后春笋之势,在某种程度上,它们预示着未来全息通信技术的发展方向——实时重建+减少对多相机的依赖,更加“轻便”、“快捷”。而传统三维重建方式比基于深度学习的三维重建更加稳定成熟,但也更依赖于硬件结构,如相机阵列等。当然,将深度学习与传统三维重建算法相结合,可以提高其性能和效果,这也是未来发展的可能方向之一。

非三维重建

自由视点技术一般采用此种方式处理,可以理解成多相机之间的“切换”,也就是切换成观看者想要看到的视角。当然,也会通过生成“虚拟视角”的方式以弥补相机的密集度不足。

“虚拟视角合成”是指利用已知的参考相机拍摄的图像合成出参考相机之间的虚拟相机位置拍摄的图像,这样能够获取更多视角下的图片,是让自由视点观看方式变得“自由”的关键。其合成方式为利用相邻两个相机成像上的差异——即视差图,在同一行上平移虚拟相机位置,从而生成新的视角图像。

假设相邻两个相机拍摄的图像像素点的视差值为1,我们要生成两个相机正中间虚拟相机的视角,则可以将左边相机拍摄图像的像素点均向右移0.5,或者将右边相机拍摄图像的像素点向左移动0.5。以此类推。

合成虚拟视图既可以利用左参考图像和对应的左视差图,也可以利用右参考图像和对应的右视差图,更好的是都利用上得到两幅虚拟视点图像,然后做图像融合,比如基于距离的线性融合等。

传统三维重建算法传统三维重建算法可分为两大类:纯彩色相机阵列的被动式和深度相机加彩色相机的主动式。

被动式三维重建算法是直接根据2D图片信息,不依靠发射信号,对物体进行重建。传统的被动式三维重建算法,如SFM主要是通过还原点云进行三维重建。SFM是一种全自动相机标定离线算法,以一系列无序的图像集作为输入,估计出的相机参数矩阵和稀疏点云为输出。由于SFM算法得到的点云是稀疏的,因此需要再进行MVS算法对稀疏点云进行处理,转换为稠密点云。

主动式三维重建算法需要通过传感器对物体发射信号,然后通过解析返回的信号对物体进行重建。代表性的算法有结构光、TOF等。其中,以红外结构光为例,依靠红外投射器将编码的红外光投射到被拍摄物体上,然后由红外相机进行拍摄,获取被拍摄物体上编码红外光的变化,将其转换为深度信息,进而获取物体三维轮廓;TOF法通过投射器向目标连续发送光脉冲,然后依据传感器接收到返回光的时间或相位差来计算距离目标的距离。主动式算法如结构光法和TOF法能够精准构建D模型,但二者都需要较为精密的传感器。

动式三维重建算法SFM

SFM,StructurefromMotion,顾名思义,用于从“动作”中重建D结构,也就是从时间系列的2D图像中推算D信息。

人的大脑可以从动的物体中取得其三维的信息,是因为大脑在动的2D图像中找到了匹配的地方,即重叠区域。然后通过匹配点之间的视差得到相对的深度信息,在这一点上,原理和基于双目视觉的三维重建相同。

SFM的输入是一段动作或者一时间系列的2D图群,然后通过2D图之间的匹配可以推断出相机的各项参数。重叠点可以用SIFT,SURF来匹配,也可以用最新的AKAZE(SIFT的改进版)来匹配。

在SFM中,误匹配会造成较大的错误,所以要对匹配进行筛选,目前流行的方法是RANSAC(RandomSampleConsensus)。2D的误匹配点可以应用D的几何特征来进行排除。Bundler[2]就是一种SFM的方法,Bundler使用了基于SIFT的匹配算法,并且对匹配进行了过滤去噪处理。

动式三维重建算法MVS

SFM的重建成果是稀疏三维点云,为了得到更好的深度结果,需要使用多视角立体视觉(MultipleViewStereo,MVS)算法。某种意义上讲,SFM其实和MVS是类似的,只是前者是摄像头运动,后者是多个摄像头视角。也可以说,前者可以在环境里面“穿行”,而后者更像在环境外“旁观”。

SFM中我们用来做重建的点是由特征匹配提供的,这些图像特征的表示为图像中的一个小区域(即一堆相邻像素)。而MVS则几乎对照片中的每个像素点都进行匹配,几乎重建每一个像素点的三维坐标,这样得到的点的密集程度可以较接近图像为我们展示出的清晰度。

其实现的理论依据在于,多视图照片间对于拍摄到的相同的三维几何结构部分存在极线几何约束。

主动式三维重建算法结构光算法

结构光(StructuredLight)三维成像的硬件主要由相机和投射器组成,结构光就是通过投射器投射到被测物体表面的主动结构信息,如激光条纹、格雷码、正弦条纹等,然后通过单个或多个相机拍摄被测表面即得结构光图像,最后基于三角测量原理经过图像三维解析计算从而实现三维重建。

结构光技术就是使用提前设计好的具有特殊结构的图案(比如离散光斑、条纹光、编码结构光等),将图案投影到三维空间物体表面上,使用另外一个相机观察在三维物理表面成像的畸变情况。如果结构光图案投影在该物体表面是一个平面,那么观察到的成像中结构光的图案就和投影的图案类似,没有变形,只是根据距离远近产生一定的尺度变化。但是,如果物体表面不是平面,那么观察到的结构光图案就会因为物体表面不同的几何形状而产生不同的扭曲变形,而且根据距离的不同而不同,根据已知的结构光图案及观察到的变形,就能根据算法计算被测物的三维形状及深度信息。

结构光D成像技术主要由4大部分组成:

1)不可见光红外线发射模组(IRProjector):用于发射经过特殊调制的不可见红外光至被拍摄物体;

2)不可见光红外线接收模组(IR):接收由被拍摄物体反射回来的不可见红外光;

)彩色相机模组(RGB):采用普通彩色镜头模组,用于2D彩色图片拍摄;

4)图像处理芯片(非必须,有些结构光供应商提供的解决方案可利用主机CPU,如手机AP处理):将红外相机拍摄得到的红外照片通过计算,得到被拍物体的深度信息。

主动式三维重建算法TOF算法

TOF(TimeofFlight)(光)飞行时间,字面理解就是通过光的飞行时间来计算距离。

TOF的基本原理是通过红外发射器发射调制过的光脉冲,遇到物体反射后,用接收器接收反射回来的光脉冲,并根据光脉冲的往返时间计算与物体之间的距离。由于光的速度快,这种调制方式对发射器和接收器的要求较高,对于时间的测量有极高的精度要求。

直接测量光飞行时间的TOF算法又叫DTOF(DirectTOF)。在实际应用中,通常调制成脉冲波(一般是正弦波),当遇到障碍物发生漫反射,再通过特制的CMOS传感器接收反射的正弦波,这时波形已经产生了相位偏移,通过相位偏移可以计算物体到深度相机的距离。这种TOF算法又叫做ITOF(IndirectTOF)。

基于深度学习的三维重建

除了上述传统的被动和主动三维重建,利用深度学习模型对数据集的学习获取先验知识,再在少量图片的基础上进行重建,相比原先传统算法,可以大大减少对图片的依赖。

早期Saxena等提出了利用监督学习的办法去预测照片的像素对应的深度。同样,ECCV收录的来自Niantic和UCL等机构的研究者关于“没有D卷积的D重建方法”则是基于前者的提升,无论从效果到性能均显著优于前者。

近期,华盛顿大学计算机科学院的GRAIL图形和成像实验室发布了一项基于NeRF合成的新技术HumanNeRF,该方案的最大特点就是利用AI算法将2D视频合成高保真D全身模型,该论文被收录在CVPR。

无D卷积实时三维重建

从姿态图像重建D室内场景通常分为两个阶段:图像深度估计,深度合并(DepthMerging)和表面重建(SurfaceReconstruction)。过去的研究依赖于昂贵的D卷积层,限制了其在资源受限环境中的应用。

来自Niantic和UCL等机构的研究者利用强大的图像先验以及平面扫描特征量和几何损失,设计了一个2DCNN。所提方法(SimpleRecon)在深度估计方面效果显著,更重要的是允许在线实时低内存重建,每帧仅用约70ms。而实时三维重建正是全息通信的关键技术之一。

该研究的关键是将现有的元数据与典型的深度图像特征一起注入到代价体积(CostVolume)中,以允许网络访问有用的信息,如几何和相对相机姿态信息。通过整合这些之前未开发的信息,该研究的模型能够在深度预测方面显著优于之前的方法,而无需昂贵的D卷积层、复杂的时间融合以及高斯过程。

从2D视频提取动态人像,并转换为D模型

NeRF方法是年ECCV的论文提出的。仅仅过去不到2年,关于NeRF的论文数量已经十分可观。NeRF是NeuralRadianceFields的缩写,中文译作神经辐射场,它是一种小型神经网络,可通过2D图片来学习D建模和渲染。把GRAIL实验室的研究HumanNeRF提出来,是因为它和全息通信息息相关——人物三维重建。

HumanNeRF解决了D人像渲染的两大难题:神经网络渲染动态对象和对于多摄像头方案的依赖。此外还可学习人体T型姿态,并通过运动场来学习刚性骨骼运动和非刚性运动。运动场和姿态预测学习信息可根据2D视频中的姿态去修改D模型,并在NeRF中渲染。当然,目前该技术还需继续优化,譬如环境光变化对结果的影响等。

HumanNeRF方法将稀疏图像作为输入,在大型人类数据集上使用预先训练的网络,然后就可以从一个新的视角有效地合成一个照片级的真实感图像。通过一小时对特定数据的微调,即可生成改进后的结果。

传输

全息通信本身并不带来新的传输技术,但是由于三维显示带来的高真实性和沉浸感以及对实时性的需求,导致了对网络提出了更高的要求,主要表现为以下四个方面:高带宽、低时延、强安全和大算力。

带宽

与传统高清或双目立体视频相比,全息通信传输的流媒体对网络带宽的需求将达数百Mbps。例如一个包含10个摄像头传感器的全息通信系统,每个摄像头输出P彩色图像,每个像素有2位的彩色数据,输出分辨率为dpi×dpi的深度图像,每个像素有16位的深度数据。按照60的帧率和倍的压缩率计算,需要上行带宽约为Mbps。随着对图像精度的提升,传感器数量、视点数量和帧率也会随之增加,对网络带宽的要求将更高。目前实现全息采集传输显示的技术路线有多条,不同的技术方案所需要的网络带宽也不同,从几百M到几个G。

使用更高效的图像压缩技术和编解码方案(例如H.),在一定程度上可以缓解全息通信的带宽需求,但仍需未来网络具有超高的带宽。对毫米波、太赫兹、可见光等更高工作频段的研究表明,未来网络可提供的用户体验速率可以有效的满足全息通信的带宽需求。

时延

全息通信中的时延可以分为数据处理时延和网络传输时延。为了减少整体时延,需要处理节点具有高算力,并进一步缩减网络本身的传输时延。

全息通信的过程可描述为,首先通过采集端设备获取对象信息,计算处理后,经过编码压缩进行网络传输,在终端侧解码渲染并显示全息图像。获取真实度高的全息图像往往需要很高的算力,当前的主要矛盾集中在处理带来的时延往往直接带来了非实时性的感受,而实时性稍好的处理方式又往往导致真实感偏差。因此对于处理算法的优化研究是当前的热门方向。对于网络本身的传输时延,5G端到端传输时延可以控制在20ms以内,随着未来网络的研究和部署,6G网络的传输时延会进一步减少。

安全

通过全息通信传输的数据中含有大量的信息数据,包括人脸特征、声音等敏感信息,需要网络提供绝对安全的保障,而现有安全技术的使用会增加端到端时延。对时延和安全性的折中考虑是未来网络需要面对的难题之一。

算力

由于全息通信包含的信息和数据量巨大,计算时间过长,除了会带来极大的带宽负担外,还会造成很大的MTP时延。随着云计算和MEC技术的快速发展,未来网络可通过云端和边缘端的快速部署解决全息通信的算力需求。

4渲染技术

通过采集设备获取的图像数据经过算法处理后,生成的数据模型使用渲染技术在显示设备上展示。目前,全息技术涉及的渲染方法主要有多视图立体渲染技术、超多视点的虚拟立体内容渲染技术和多平面图像技术。

在以上三类渲染技术中,多视图立体渲染技术作为已经成熟的技术被广泛应用于VR商业市场,超多视点的虚拟立体内容渲染技术和多平面图像技术多应用于裸眼D显示设备。基于全息通信的特点,人们更倾向于使用裸眼D设备构成解决方案。

多视图立体渲染技术多视图立体渲染技术主要用于虚拟现实(VR)设备的图像渲染。当图像通过虚拟现实眼镜等设备呈现在人眼前,设备呈现的画面质量直接决定用户的观看感受。在该类设备上,图形硬件厂商在提升画面视野,降低图形畸变,提高图形质量等方面不断努力,并推出一系列技术与解决方案。

虚拟现实图形管道原理

图形应用程序为显示设备渲染一个D场景时将在D空间中创建一个虚拟摄像机并根据摄像机的位置对场景中的几何图形执行计算。渲染引擎执行像素阴影,并将单帧投影到显示设备上。虚拟现实的图形管道则不同,它需要渲染多个视图。一个典型的VR设备有两个镜头。每个镜头都会在观看者的左右眼中投射出一个单独的视图,即D应用程序需要执行立体渲染——从轻微偏移的摄像机位置渲染同一场景的两个视图。一种常见的立体渲染方法是,在将图像呈现给终端之前,要简单地按顺序一起执行两种绘制操作。这种方法对处理设备有一定的性能要求。

单通道立体(SPS)渲染技术

NVIDIA的Pascal架构引入了一种称为单通道立体(SPS)渲染的技术来帮助加速VR的几何处理。SPS使GPU在一次渲染过程中最多同时绘制两个视图,这些视图只在x方向上变化。设备视场(FOV)越大,沉浸感越强。Pascal的立体渲染技术完全适用于有限视场的共面显示设备,针对+FOV的设备可以更逼真地展示虚拟现实效果。

图灵多视图渲染技术

两个视角对于具有超侧视场的VR设备是不够的。由NVIDIA的图灵GPU支持的多视图渲染扩展了单通道立体渲染。MVR支持在一次传递中最多渲染4个视图,支持每个视图顶点位置的不同组件,支持将其他通用属性设置为独立于视图的能力,使开发人员能够利用和扩展同时多投影算法到超宽的FOV设备与倾斜的显示器,使用最多4个视图。

超多视点的虚拟立体内容渲染技术目前市场上除了已经大规模普及的虚拟现实显示设备具备全息显示效果,还有一种无需人体佩戴的特殊设备——可直接观看的显示器,这类显示器一般具有特殊的光学结构,可以实现全息显示效果。针对该类显示器,同样从不同的角度设计了不同的渲染方式以提升设备的画面性能。

视点渲染法逐视点的渲染方法是指在虚拟空间中以一定规则摆放虚拟摄影机阵列,并逐个渲染出视点图像,最终合成全息编码图像,或者将每一个视点图像输出到相应

的投影机上,多角度投影在相应的显示设备屏幕上。本方法既可以采用栅格化的方法,也可以采用光线跟踪的方法。

前期的逐视点渲染法需要串行的执行。串行逐视点渲染法中间过程中生成的每个视点图像存在大量冗余,生成过程随着视点数目的增多而线性增长。一般应用在个视点以内的,单视点图像分辨率小于×,场景面片数小于10M场景的实时渲染。

基于几何着色器的逐视点渲染法可一次性地在一个纹理上渲染出多个视点的图像,这样可以极大地节省多视点渲染时间。

基于GPUinstancing的逐视点渲染法是一种用来提高渲染大量物体效率的技术,随着场景品质需求的提升,需要在场景里绘制越来越多的物体,CPU和GPU的压力都会上升。在场景中有大量重复物体需要绘制时,使用GPUInstancing技术只需要设置一次原始数据缓冲区,调用一次drawcall绘制出来。与基于几何着色器的逐视点渲染算法相比,它的显存需求不会随着视点数目的增加而增加。

线跟踪法光线跟踪算法可以生成质量很高的全息图像,直接加载至二维显示面板或投影机上即可显示。光线跟踪算法一般由三部分构成[10],即光线的生成、光线的

碰撞和像素的着色。传统显示设备的光线跟踪与全息显示设备的光线跟踪区别在于光线的生成部分。如图8所示,光线从虚拟摄影机出发经透镜到达基元图像像素,像素和光线满足一一对应的关系。通过显示器的像素生成光线,之后是碰撞检测,最后通过着色程序就可以生成相应的光场图像。

光线跟踪具有天然的并行性,可以很方便地提高光线跟踪的效率。光线跟踪的计算复杂度与屏幕的分辨率大小正相关,现有的实时光线跟踪硬件管线基本面向2K以下的显示设备且可绘制的场景有限[7]。

基于深度信息的超多视点渲染

基于深度信息的渲染(Depth-Image-BasedRendering,DIBR)在虚拟场景的渲染过程中十分常用。DIBR算法是利用深度信息和其他附加信息通过插值产生其他视点的图像。它有效地降低了图形渲染的复杂度,渲染速度大大加快,缺点是造成渲染质量的下降。

根据参考视点的数目,可分两类:一类为单参考视点的DIBR,一类为多参考视点的DIBR。单参考视点的DIBR可以只使用一幅深度参考图像和彩色图像就可以生成场景所需要的全部视点,当视角较大时空洞较大,填补困难,适用于10°以内观看视角的光场显示设备。多参考视点的DIBR需要多个深度参考视点,能够有效地增大视角,消除空洞。多参考视点一般使用左右两个视点来插值出中间视点。DIBR技术具有带宽需求小、输入图像数量少和绘制速度快的优点。单参考视点的DIBR技术映射速度快,双参考视点的DIBR技术能够利用左右视图实现对遮挡区域的信息互补。

基于几何相关性的超多视点渲染

假设由三个点场景组成的三维场景,虚拟摄影机阵列为错切式排列,如图9所示,其对应的EPI图像为三条直线。

则对应的EPI的图像是斜率为正的直线;若点位于零平面外,则对应的EPI图像是斜率为负的直线。因此,点的渲染就可以转化最左侧虚拟相机和最右侧相机对这一点的渲染,并在EPI图像上由这两视点生成相应的EPI直线,最终再转换为视点图像,这样就会大大简化渲染的流程。

多平面图像渲染技术多平面图像渲染技术是一种基于图像渲染环境复杂真实场景的技术。例如在渲染具有遮挡或镜面反射等具有挑战性的复杂场景时,这种表示比传统的D网格渲染更有效。多平面图像(multi-planeimage,MPI)能够表示几何体和纹理(包括遮挡元素),并且使用alpha通道可以处理部分反射或透明对象以及处理柔软边界。增加平面数可以使MPI表示更宽的深度范围,并允许更大程度的相机移动。此外,从MPI渲染生成新视点非常高效,并且可以支持实时应用程序。

基于SFM或基于RGB-D相机的新视图生成方法完全依赖于精确的几何估计,然后从附近的视图重投影到新视图并混合纹理。这些方法侧重于输入视图之间的差值而不能预测场景中被遮挡的内容。基于光场渲染的方法通常需要使用数十个相机来对场景进行非常密集的采样。MPI具有精度高,渲染速度快,输入视角少等特点。相比于其他基于深度学习的新视图生成方法,例如DeepStereo、NeRF等,MPI具有更强的泛化性和更快的训练速度以及渲染速度,以满足实时应用的需求。

5显示技术

全息视频的展示方式分为穿戴式设备和裸眼D显示设备两种。基于全息通信的特点,人们更倾向于使用裸眼D设备构成解决方案。

穿戴式设备

VR头显是“虚拟现实头戴式显示器设备”的简称,VR头显不是通过过滤来自外部屏幕的内容来工作的,而是生成自己的双眼图像,并直接呈现给相应的眼睛。VR头显通常包含两个微型显示器(左眼一个,右眼一个),经过光学元件的放大和调整,显示在用户眼前的特定位置上。

AR眼镜,又称作“增强现实头显”。当前增强现实头显变得越来越普遍,增强现实技术可以把数字世界和现实世界融合在一起。为了确保真实感,增强现实系统不仅需要追踪用户在真实世界的头部运动,同时也要考虑自己所在的现实D环境。现实世界的光线从不同的方向进入瞳孔之中,这样我们双眼可以看到真实的世界。

裸眼D显示设备如果不想利用这些穿戴式设备,又想同时以多个视角看到全息影像,则需要用到裸眼全息屏。目前主流的裸眼全息屏技术有基于双目视差和视觉暂留效应的狭缝光栅技术、柱状透镜技术和人眼追踪技术,以及基于空间中三维物体光场重构的体三维技术和光场立体显示技术。

狭缝光栅技术的原理是在屏幕前加了一个狭缝式光栅,应该由左眼看到的图像显示在液晶屏上时,不透明的条纹会遮挡右眼;同理,应该由右眼看到的图像显示在液晶屏上时,不透明的条纹会遮挡左眼,通过将左眼和右眼的可视画面分开,使观者看到D影像。

柱状透镜技术的原理是通过透镜的折射,将左右眼对应的像素点分别投射在左右眼中,实现图像分离。对比狭缝光栅技术,其最大的优点是透镜不会遮挡光线,所以亮度有了很大改善[14]。

传统的狭缝光栅及柱状透镜全息屏技术只在空间中形成有限的最佳视点,当用户头部移动到最佳视点之外时,双眼会看到串扰的立体图像,影响了立体视觉体验。针对这种问题,通过人眼追踪技术实时定位人眼的空间坐标,再由人眼坐标对图像像素进行重新排布改变最佳视点的区域,很好的扩展了全息视野。不过,由人眼追踪的技术原理可知,目前带有人眼追踪技术的裸眼全息屏只能支持单人观看,即使多人同时看,也只能追踪到一人的视线。而传统的狭缝光栅等技术实现的全息屏则在可视范围内可以多人多视点观看。

体三维显示是一种全新的三维图像显示技术,通过适当方式激励点亮位于显示空间内的物质,利用可见辐射的产生、吸收或散射形成大量的体像素,从而构建出三维图像[15]。体三维显示技术呈现的图像就像是一个真实的三维物体一样,符合人类观察普通三维图像的任何特点,几乎能满足所有的生理和心理深度暗示,可实现多人、多角度、同一时间裸眼观察。

光场三维显示技术如图11所示,这种技术的原理是利用带有方向的光束来构建空间三维物体的光场。空间中任意一个三维物体都可以看作是由无数个发光点组成,任意一个点能够主动或者被动地向空间中各个方向发出携带自身特性的光线[16]。通过设计控光单元的结构、对2D显示设备上加载图像进行有规律的编码等方式,调制有控光单元出射的携带三维场景信息的方向光,使其能够在空间中会聚并构建出向不同方向投射不同空间信息的体像素,用这些体像素来模拟真实物体的发光点,从而实现裸眼观看真三维的显示技术,使人眼获得更真实,自然的D影像。



转载请注明:http://www.aideyishus.com/lkjg/4362.html
------分隔线----------------------------