编码机

PPIO边缘云聚焦音视频底层技术,探索元

发布时间:2023/5/2 21:30:09   
怎样根治白癜风 http://m.39.net/pf/a_7461259.html
                            

编者按:年Metaverse非常火,火到连扎克伯格都不要“face”,直接把脸书改名为Meta。年初,元宇宙首次上升为国家级战略,被写入地方“十四五”产业规划,成为社会热议的焦点话题。每一项技术的迭代和革新,都意味着一个新的契机、新的挑战,同时也是一个新的开始。元宇宙是未来,一种很大程度上会实现的未来,什么时候才是我们占据主动权的最佳时机?答案就是:现在!想要在短时间内实现元宇宙,如同“登月工程”,需要我们从底层技术出发,找到内容生态系统的突破口。

本次分享将从VR/AR的核心指标及实现,云与边缘架构、编解码、网络传输路径等多个维度,全面分析元宇宙的音视频技术脉络,探讨元宇宙时代产业结构变化,介绍PPIO边缘云未来如何为元宇宙提供强大的基础设施服务。

文/王闻宇

整理/LiveVideoStack

今天分享一个比较实在却又比较科幻的话题,对整个元宇宙过程做一次简单的推演,但这个推演不是商业方向的,而是对技术做一个推演。

1、元宇宙的音视频技术脉络与底层技术

大家都知道近几年中国在登月上取得了巨大的进展,特别是在年,中国登月时对月球进行了采集工作,一共带回了1.7kg左右的月壤,是航天史上第一个登陆月球背面并采集了样品的国家。之前20世纪60年度,美国曾经也有几次登月,但是美国的登月深受全球质疑,质疑者认为这只是给前苏联导演得一出戏,因为登月对人类没有什么用。但是实际上,登月工程真得没用吗?

其实不是,登月给社会带来了许多价值,比如我们生活中用到的设备包括无线吸尘器、钟表更准时、水更干净、救命毯、速食食品等技术,都是在登月期间所研发的重大科技成果,随之带来了很多商业化价值。我讲这个故事的主要原因是,元宇宙听起来离大家比较远,它来源于科幻,担心最终不一定能成为现实。但我演讲主题中的元宇宙就好比音视频行业的登月一样,它虽然目标很远,但过程中一定能诞生一些对我们有帮助的技术创新。

首先做个自我介绍,我是王闻宇,PPIO边缘云联合创始人兼CEO,从年开始做音视频,最早PPTV第一版是我和姚欣在学生宿舍写出来的,后面一直专注于P2P/CDN、直播、点播等相关技术上,直到年卖掉PPTV,开始了新的创业历程。年和姚欣联合创办了PPIO边缘云,发展靠近用户侧的边缘节点,主要服务音视频行业。

说到元宇宙,它来源于什么呢?最开始,元宇宙来源于年的一本小说《雪崩》,小说里史蒂芬森将这个平行于物理世界的数字世界命名为“Metaverse”。之后在影视作品中,元宇宙的理念一步步出现在《黑客帝国》等影视作品中,包括最近的电影《头号玩家》,以及欧洲一家非常知名的蠢驴游戏公司,把元宇宙小说《雪崩》的故事场景还原成了一个游戏叫做《赛博朋克》,里面几乎刻画了小说《雪崩》的世界,游戏中的“超梦”也就是元宇宙的体验。从科幻的视野来看,元宇宙最终是给人以类真实世界的音视频体验。

下面我们站在现实的角度来看元宇宙,年,Facebook公司在Connect大会宣布正式更名为“Meta”,从而把Metaverse作为Facebook的战略。扎克伯格一共提出了八大要素,其中第一大要素是“身临其境感”,Facebook为身临其境感研发出了三款硬件,第一款硬件是Oculus,以23亿美元收购了Oculus公司,并在VR业务上持续投入了大量研发费用。除此之外,它自己又推出了AR和MR相关的一些硬件产品。扎克伯格所说的元宇宙带来的身临其境感,也是给人以类真实世界的体验,这也是VR/AR发展到人眼感官的极致体验。

元宇宙一共有六大核心技术,这六个单词的首字母拼起来就是BIGANT。其中有四个技术与音视频相关,分别是交互技术、电子游戏技术、网络及运算技术和物联网技术。在元宇宙的整个发展过程中,我相信这几个技术也会得到深度发展。

上图是我对未来通往元宇宙的道路上,有哪些技术会被革新的拆解过程。第一,身临其境感的全真视觉体验技术,如何给人以类真实世界的体验,它势必带来新一代显示技术的发展,需要更高压缩比,更符合真实体验感的压缩技术。第二,它会带来超低延迟技术,包括wifi低延时内网技术,低延迟编码,同时也会带动边缘计算的崛起。第三,音视频交互技术。第四,脑机接口技术,直接透过视网膜把显示数据传递给人脑,这些都是元宇宙“登月”过程中必然会带来的变革。

我先讲全真视觉体验的产生原理,左图是人眼的结构,右图是人脑处理数据的过程,人眼对光线的感应是通过神经传到大脑,再用大脑进行分析,从而合成我们看到的画面。

首先我们要理解人眼的分辨率到底有多少,这是个非常关键的指标。使用苹果手机时有一个关键词“PPI“,什么是PPI呢?就是每英寸对角线上能容纳多少像素,苹果对视网膜屏的定义是分辨率超过人眼识别极限的高分辨率屏幕,也就是要大于PPI的像素密度。但在VR里常常引入一个概念“PPD”,它是人眼的每一角度(degree)能容纳多少像素。给大家做个类比,人在40cm左右的距离看到一个非常清晰的画面(像素),换算过来就是64PPD,那这符合人眼体验吗?其实不符合,64PPD是远远不够的。实验证明PPD要到-才能匹配人眼密度。

科学实验的结果说明人眼理论的分辨率是2.4w*2.4w相当于是5.76亿的像素。这只是理论值,人眼单眼的视觉范围大概在度,也就是2.4w除以,约等于左右,也就是说PPD才符合人眼视觉体验。

但现实真的如此吗?并不是,人眼的分辨率远没有5.76亿那么高。为什么呢?因为人眼在感官时并不是全高清感官,它有一个聚焦的位置,只有这个聚焦的位置才是非常清晰的,周围是模糊的。但为什么人能看非常清晰的画面,因为人的眼球会动,会转一圈来获得多个清晰的画面,在大脑里合成并还原出物体实际的样子。

上图看到的是窄域和宽域,窄域是人眼最高清晰看到的画面。左图这个角度是窄域,剩下的是宽域。两眼同时看到的画面结合起来能看到一个完整的视觉效果。右边的图,人用一只眼看时是一块清晰周围全模糊,而用两只眼睛同时看就能获得一个完整的清晰画面。两眼重合视域可达,比较清晰。但对于单眼来说,窄域是56-60之间,最大单眼视角是,这些都是实验得出数据。

这是来自尼康的一份实验资料。它请了很多人来做窄域像素测试,这些人的眼睛都有不同程度的近视。表格是左眼与右眼测出来的情况,发现人眼实际像素的差距很大。窄域等效像素在7百万-7千万之间,如果算平均值,人眼看到最清晰的画面分辨率在5千万左右像素,也就是最好分辨率在*左右。如果我们用人眼视觉得到一个值和计算机的分辨率来进行参考,我们发现跟今天的8K是最接近的。

如果说整个硬件在窄域要给人以一种身临其境的感觉,需要支持的单眼分辨率要做到8k这样的级别。那么我们可以类比市面上今天销量最大的一款VR设备,OculusQuest2,基本上它距离单眼8k还有很远的距离,但如果要在VR设备中造出一个单眼8k+的视网膜屏幕,就要把它的屏幕PPI密度做得更高才行,这本身是一个极大的硬件挑战。

下面我来说说刷新率。刷新率是一个很有意思的话题,早在20世纪以前刚发明电影的时候,已经证明人眼的刷新率是24帧,这也是直到今天电影行业基本普遍采用的刷新率。

那为什么电脑显示器30帧以下,我们的眼睛就会觉得很不适应,60帧才能达到一个人眼的基本舒适感觉,跟24帧是不是相悖?当然不是,因为电影所用的帧叫做模糊帧,如果你把电影画面一帧一帧地慢放,会发现中间有大量的模糊帧存在,而人眼在面对大量模糊帧的时候能够还原出清晰且连贯的画面。但前提是我们要清晰的知道我们的下一帧是什么,我们才能使用模糊帧。

实际上我们在玩游戏时,因为不知道它下一帧画面应该是怎样的,所以只能渲染出清晰帧,用大量的清晰帧才能给人脑一种无缝的连贯感。不过,这里我也查过大量资料,也请教过一些专门研究人脑生理学的人,确实目前没有实验能够证明,到底什么样的清晰帧对人脑是合适的。根据电竞游戏显示器的经验看,基本上60帧已经满足了,帧能满足一些高速动作的场景,帧是发烧级。现在很多显示器是帧,都是为发烧级而生的。另外,电影业也不是一成不变,今天很多电影也在追求更高的分辨率,如年由李安导演的《双子杀手》,就是首部帧拍摄的动作片。

从云游戏和云渲染的角度来看,它的本质是音视频串流,是要经过编码。从编码原理看,是明确知道这一帧和上一帧之间的差异。想象一下,如果能很好地运用好模糊帧理念,其实能适当降低人脑对帧率的要求。但为了做好今天的逻辑分析,我后面的推演还是以60帧作为一个理想的数字,继续往下推演,因为我认为60帧对于全真视觉体验已经足够了。

这是当前VR显示设备的分辨率和全真视觉体验分辨率的差距,图中可以看出技术上的对比。最后一列如果要做到身临其境的感觉,需要支持x的分辨率和接近万的像素。对比目前的VR硬件可以看出,在元宇宙发展过程中,VR视网膜屏幕技术还需要进一步提升,才能符合窄域全真显示体验,还需要提升5-10倍像素密度。

要想达到全真视觉体验,只做好窄域的显示是不够的,因为人的眼睛它会游走转动,所以在给人做显示设备的时候,不能只是把窄域做好,还要考虑用宽域的角度去看。

在我看来眼动追踪技术一定会诞生。近几年已经有很多论文在研究眼动技术,有很多论文和专利讲眼动技术。随着动态的去捕捉人眼的

转载请注明:http://www.aideyishus.com/lkjg/4307.html

------分隔线----------------------------