编码机

专访腾讯多媒体实验室商世东咬咬牙也要跟上

发布时间:2023/11/18 15:17:54   
北京中科白殿风医院正规吗 https://wapyyk.39.net/hospital/89ac7_labs.html
受疫情影响,远程协同办公软件市场爆发,腾讯会议上线两个月内日活超千万,在如此高并发流量冲击下,腾讯会议保持了清晰流畅的语音服务。近日,腾讯多媒体实验室高级总监商世东接受LiveVideoStack专访,围绕腾讯会议及其背后的故事进行了分享。(PhotobySergey)以下为采访实录:1.选择离开杜比从来都不是一个困难的决定刚刚毕业的时候,我在摩托罗拉做音频方面的工作,一做就是将近十年的时间。年,我去了杜比实验室,算起来是国内入职杜比研发团队的第二个员工。当时负责整个杜比中国的工程团队,差不多有五六十个人的规模。后来我又去了杜比澳大利亚,再后来,也就是年1月,我加入了腾讯多媒体实验室,在音频技术中心负责整个音频团队的建设、产品的技术路线规划、技术的交互以及负责对多个产品,包括腾讯会议在内的端到端的音频体验,现在团队(音频)大概有20个人。对我来说,首先,在杜比这样的业界领先公司工作,我学习到了很多,国际化的视野、前瞻性的技术布局、完整的思维体系、团队建设等等,这些都是让我终身获益的东西。但离开杜比并不是一个非常困难的决定,这其中大环境、小环境的原因都有一些。我后来回顾了一下,最重要的原因还是在于杜比的主要业务是在传统领域,成长速度不尽人意。作为一家主要做技术授权业务的公司,它没有最终面对消费者的产品,相对而言公司规模也比较小,对整个生态的影响有限,很难有一个全面的把握。换一种说法,这其中有很多的东西是个人想要但是平台无法给与的,个人成长容易碰到天花板,想要向上突破的时候,公司已经不能给自己提供这样的平台了。就这方面而言的话,在腾讯,天花板几乎不存在,在这里,只要有能力、有潜力、有愿望,个人拥有持续不断的提升空间,并且可以在这个无限上升的空间里做到最好,这对我来说是非常重要的一点。在腾讯面临的用户数量,以前在杜比的时候是想都不敢想的。现在一天会有千万级DAU的产品,可以看到自己开发的产品在整个市场上遇到各种意想不到的困难、挑战、问题以及机会。现在我们很大一部分的精力放在腾讯会议上,通过种种技术对用户使用场景进行分析并通过统计数据的上报、分析,了解用户可能遇到的问题并快速加以解决。2.改变需要更多的思考与更确定的答案(PhotobySergey)以前我们做视频会议,考虑会议中的语音质量提升和评估的出发点都是要求对标或者超越电话(典型的比如电话话筒终端),这个是典型的双人通话场景,但是现在我们也发现视频会议大量的场景都是围绕多人的、多地的联合办公场景。以前基于电信行业终端(电话话筒为主要语音设备)定义的完整的语音质量体系需要重新审视和演进来满足现在用户的需求。简单地说,会议软件是从模仿打电话的体验开始的,虽然从使用方式、使用场景、使用时间等等角度来看,多样性已经远远超过了电话。而且,仅仅俩人打电话是不够的,我们要一个小组打电话,光打电话还不够,还要分享视频、分享屏幕、图片和文档。从国际标准,比如ITU-T的演进路线图来看,制订的通话标准,也不断的从双人通话向多人、跨地区的实时、强交互场景演进。会议当中关键的语音体验简单的来说,可以从三个维度来衡量,语音通信的可懂度,语音自然度/保真度和语音舒适度。从这三方面来说,在多人会议中面临的挑战明显要多于双人。比如多人通话采集设备的多样性。两个人的时候当然很好协调,人多了以后采集设备如何配置,以及采集的音质、采样率、比特率;在多人场景里面音频编解码的接入配置,到底是宽带还是超宽带,最简单的办法就是所有的配置都按照最好的来,但是这样对系统资源的占用是最高的。同时因为对系统资源的占用最高,会带来总体体验的下降。那么如何动态来在多种因素中平衡,保证多人语音通信的综合体验在三个维度上有最优的均衡,就变成一个很有挑战性的课题。同时,不同场景的网络环境也不一样。你的网络、我的网络,可能还有第三个、第四个人的网络,有的人使用有线网络、有的则是WiFi,有的是4G,带宽差异巨大,网络QoS也参差不齐,这时候如何有效的探测网络实际带宽,进而高效的进行流控管理,在多人场景下的复杂度远远高于双人。所以,综上所述,一旦开始考虑多人参会的因素,你会发现,在两人通话的情形下讨论的音质体验、QoS、QoE等等问题,现在要重新思考答案。这在国际上当前也是很热的领域,大家也都在探索答案。对于整个视频会议体验来说,或者对于用户体验来说,这不是一个单一的因素或者指标就可以决定的。之前我们有针对网络规划的常见QoS三个指标,丢包,抖动和延迟,这些东西都是必要条件,但是不是充分条件。决定一个用户体验的是很多方面的因素,比如从音频角度来说,从我们做音频的角度来说,用的最多的就是上面说到的三个维度:语音可懂度、自然度、舒适度。首先是听得懂你说的话,这是可懂度。如果音量很低,卡顿很严重,或者回声,或者很嘈杂,或者啸叫发生,那我基本就无法听了,那视频会议通话中反应比较多的卡顿来说,我们通过深度学习技术来解决网络丢包的问题。IP网络上面传输的时候常常会发生丢包的现象,以前处理丢包的技术比较简单粗暴,比如直接拿后面一帧填补一下或者前一帧内容直接复制。但是现在我们通过机器学习的方法,可以很准确的预测丢掉的那个音节的部分内容,在用户体验上则并没有感知。但是光听得懂肯定不行,你肯定不可能只满足于听得懂。比如听机器人说话,那听得懂是没有问题的,但自然度方面就不会太好,这里面就涉及很多音质的东西,不仅是延迟、卡顿,抖动,这些是网络的指标。自然度对于用户来说更多是一个感知问题,我们用音色是否明亮、是否均衡、是否丰满,等等多项指标来衡量。当我们在语音处理中不可避免需要非线性处理的时候,我们就可以通过上述的指标来保证语音的感知自然度。在语音舒适度维度方面,我们的终极目标是视频会议语音通话的体验要尽可能的接近真实场景下的人和人间距1米时的通话体验,要达到这样的目标,我们还有很长的一段路要走。目前可以想象到哪些困难我们需要克服,除了网络QoS三要素外,如何尽可能真实的仿真出所处的声学场景和对话形式,对于目标的达成至关重要,我们的技术演进路线图也是朝着这个方向在努力。3.赶车咖啡与信念缺一不可(PhotobySergey)今年的需求(疫情)爆发了以后,我们整个团队一直加班加点,针对以前很多没有覆盖到的场景、没有碰到过的用户需求,陆陆续续开发了更多的技术和功能。比如,我们发现很多老师给学生上课时需要声音共享,而且这是一个非常刚性的需求。以前我们在办公室很少有声音共享,屏幕共享就可以了,所以我们在Windows(大部分老师都是用电脑进行教学直播互动)上提供了很多音频共享的功能。比如我们可以在学生把麦克风禁麦后还讲话的时候提醒学生,我们通过信号处理的技术,可以把学生讲话的声音有效的从环境背景声分离处理,从而实现关麦讲话提醒这个功能。另外,用户激增后,我们也看到了不同用户的终端设备差异性导致的产品行为的不一致。举个例子,用户开关麦克风的过程当中需要整个设备驱动进行重启。设备驱动重启的过程中,大部分设备都没有问题,但是某些设备确会导致关麦的时候扬声器无声,一秒两秒的无声用传统的质量评估手段是看不出来的,但对用户体验有很大的影响。所有这样的问题被发现后,快速迭代的能力就非常关键。在这个过程中,对产品的思考更多时候是一个信念问题,当有这么多人使用这款产品时,我们是带有使命感在工作的。我们更多是希望早一点把需求解决、把功能做出来,早一点优化用户的体验。所以大家常常是咬着牙,加班加点,周末也不休息。在声音共享这个功能上线的时候,我记得我们有一个同学一晚上调bug调到了两三点,我们当时想到底还要不要跟着这次产品更新一起发布新功能,还是说再挺一下,坚持把这最后一个问题解决掉。因为产品的发布时间已经确定,如果这次赶不上,那意味着老师和学生们第二天上课时又没有声音,上课的效率和体验都会受到比很大的影响,所以我们的同学那天就赶了一整个晚上,在这期间咖啡就没停过。最后,终于在凌晨5点多钟的时候,问题解决了,最后还做了全面的自测,确保没有问题,第二天我们真的就硬是赶上了新版本发布的这趟车。这个声音共享功能发布了以后,我们非常非常开心,就是那种很单纯的喜悦,希望上网课的老师们都赶紧升级到新版本,这样他们再给学生分享视频的时候,声音的分享就再也不成问题了。声音是传递信息非常重要的媒介,所以我们的想法很简单,就是这个东西能够越早做出来越好。4.出海VooVMeeting的师、敌、友(PhotobySergey)最近,Zoom是一个非常值得

转载请注明:http://www.aideyishus.com/lkyy/5647.html
------分隔线----------------------------