当前位置: 编码机 >> 编码机市场 >> 技术解码百度智能云云智一体的智能视频云
人工智能与5G的飞速发展,让各行各业对视频的应用、体验提出了更高的要求。5月13日,百度智能云“云智技术论坛-智能视频专场”活动在京举办,百度智能云重磅发布了智能视频云3.0全景图,融合百度前沿的视频云和AI技术能力矩阵,从云智技术一体化、产品平台化、应用场景化三个层面全面赋能多场景的视频应用。作为国内AI公有云服务市场第一的百度智能云,正以“云智一体”独家优势持续渗透市场中。
视频具有“重”数据的特点,在海量数据的情况下,一方面对采集、存储、传输和分发提出了极高的诉求,另一方面需要强大的智能化分析与处理能力。基于此,百度智能云“云智一体”的全场景视频技术中,“云”的部分以云边端一体、异构融合的基础架构提供先进的云计算能力,“智”则以业界领先且全面的AI能力实现了对视频语音、图像、文字等多种信息的多模态智能分析、理解、生成等处理。
依托“云智一体”推出了视频创作分发平台和视联网感知平台。在消费类视频方面,将采集到的各种结构化信息、知识信息通过智能视频云的手段,转化成多媒体的信息进行高效分发和传播;而在产业类视频方面,将采集到的视频转变为结构化信息,通过提取获得的信息,来帮助业务进行高效的感知和决策。
“云智一体”的百度智能视频云3.0究竟在技术上有什么独到之处?
(智能视频云3.0全景图)
云:高效稳定的基础技术架构,打造强有力的输出载体
为了更好地应对已经来到的海量视频业务需求,智能视频云3.0以云边端一体的基础技术架构作为核心依托,进一步拓展算力边界,端到端、强稳定、高性能的视频云能力,帮助客户快速实现应用的落地与交付。
百度智能视频云3.0的云能力主要表现在智能编码、智感超清、实时音视频通讯、低延时直播、视频分发加速CDN等五大方面:
智能编码:基于百度AI深度学习技术,通过深度学习网络来提取视频的特征,结合BD生成智能编码技术。
算法方面,依靠百度多年积累的技术优势,通过60+算法的优化,在质量和效率、速度上取得最优解。
效率方面,相比业界开源的X编码器,在编码速度有2-4倍的提升,同时节省30%的编码码率。
(智能编码)
智感超清:视频体验的优化是一项精细求精、永无止境的工作。百度智能视频云3.0通过智能超分、智能画质增强、智能插帧、智能修复、智能HDR生成等技术,在老片修复、真4K生成等典型应用场景上大幅提升画质体验、弥补超高清内容缺失,加速了超高清产业发展,相关技术在国际权威比赛中屡次夺冠,具体优势体现在:
超分辨率:通过多层级联的U型神经网络架构,对视频空间的分辨率进行从粗到细的提升。
画面去噪:基于无监督去噪声算法,摆脱了有监督神经网络训练对于成对的噪声与干净图像的依赖;设计了可交互控制参数,支持用户调节,增加了系统灵活性。
画质增强:通过深度残差神经网络,将内容特征提取与重建,不仅可以优化画质饱和度、还原压缩视频导致的失真,还能对ROI区域进行区域增强和码率分配优化。
高帧率重制:依靠MEMC高帧率提升技术能力,通过对运动方向预判,据此进行插帧,提升画面流畅度与观屏舒适度。
超高清编码:采用CPU+GPU+ASIC的异构加速计算框架,支持国产昆仑K芯片,提升AI推理效率和超高清编码效率,降低用户成本,提升总体的生成效率。
(智感超清)
实时音视频通讯:依靠核心自研的多个算法,实现通讯顺畅的超低延时互动体验,并分为如下几个方面:
抗弱网支持方面:基于上/下行链路智能探测器,根据上下行网络链路恶化程度因子,调整FEC、NACK、码控、超清权重,选择因子进行抗弱网抖动算法,使视频抗弱网可达到60%,音频80%。
AI能力方面:通过百度多年的AI技术积累,支持实时美颜、滤镜、贴纸、AR特效,更多娱乐场景玩法,并提供人脸识别、语音识别等能力,适用于用于身份核验、学生状态监测等更多场景。
高质量音视频通话方面:通过大量音视频场景数据AI模型训练,对音频进行3A优化的同时,并能通过智感超清支撑超高清画质,自动适配多分辨率,实现高质量音视频消息聊天。
性能指标方面:为针对通信节点路由的选择,优化混沌神经网络算法规划最短路径、实现动态平衡路由选择,可使端到端延时稳定收敛到ms左右,并在单个节点故障时,能自动重建路由,保障server的可用性。依靠WHIP协议转换装置解决了传统RTC通信server由于信令交互复杂、房间管理业务量大、数据库操作频繁等影响性能及大规模搞并发问题,可支撑每个房间在线人数达百万级别。
端到端性能监控方面:通过各端大量数据收集,依托百度智能云大数据分析,能精准的定位问题,对潜在的不可靠服务提前预警,让潜在风险在萌芽状态被解决,保障音视频实时通信服务的高可用。
(实时音视频通讯)
低延时直播:采用了全链路SRT协议,可稳定支撑千万级直播并发。关键特性包括:
卓越抗弱网:自研mpegts数据格式封装、支持SRT协议推拉流,将网络丢包的可能性降到最低,有效改善弱网环境下的推流及观看体验。
首屏秒开:CDN边缘先将编码参数信息发给播放器,播放器解析到编码信息,待下个关键帧到达后即可快速播放。
协议兼容:实现多种视频流协议的输入与输出,基于SRT低延迟直播协议的上下行,能无缝接入LSS低延迟直播系统,与主流直播分发协议HTTP-FLV/RTMP/HLS结合,视频转发场景更加灵活。
规模并发:与HTTP-FLV支持的并发规模一致,支持千万级规模并发。
(低延时直播)
视频分发基础设施CDN:拥有遍布全球+节点、T带宽储备,以强大网络基础设施带来极致视频分发体验和效率。其中具有这几大能力:
资源储备的扩展能力:通过云边端一体,将资源的使用能力持续下沉,与边缘计算的资源深度结合,做到流量加速的同时,也能做到算力的加速。
近似实时的智能调度能力:具备全网流量与质量的感知系统,能实现近似实时的智能调度。
分场景的协议调优能力:通过质量感知系统Bcats、节点多级缓存优化、分场景协议栈优化满足客户多场景的质量要求,节点间使用私有协议加速,提升加速体验并保证数据安全。
快速便捷的可编程能力:通过易用的可编程边缘运行环境EJS,用户可自主实现个性化业务控制逻辑,应对业务变化的敏捷效率挑战。
(视频分发基础设施CDN)
此外在全民拍摄、泛直播时代背景下,针对轻量化美颜、智能剪辑、低码率高品质推流、沉浸式播放体验等音视频终端业务的基础需求。百度智能云的视频云终端能力矩阵,面向不同业务,提供丰富的SDK解决方案。
受益于终端工程化技术演进,视频云终端框架正在经历从模块化向智能化演进,平台接入层重点解决多SDK的复用和数据管线组合,提高内部协同效率同时,提升产品按需交付的灵活度。辅以横贯模块间的数据监控,运行质量一目了然。跨平台层重点解决多终端数据处理一致性体验,基于生产消费模型,在终端算力的不断释放的情况下,将自研算法抽象成独立算子(例如PaddleLite的人脸算法),经过管线中不同处理节点,最终将数据消费成业务效果(如美颜等)。终端数据高效率的处理,离不开平台引擎层提供的持续动力。终端并行计算技术让CPU与GPU在时间和空间上得到更好的协同。
(AllInOne能力矩阵)
智:AI能力让视频变得更加“聪明”
伴随着视频智能化的大潮,AI技术在视频行业转型升级中作用日益凸显。依托百度云智一体的独特优势,为满足产业对场景的定制化应用需求,百度智能视频云3.0全景图的AI技术能力,基于百度自研业界最大包含了亿海量知识的多元异构知识图谱,在视频的智能理解分析、视频智能生产与智能交互生成等方面充当了平台化与场景化的创新应用的技术基石,助力智能视频从“刀耕火种”走向“精耕细作”。
(智能视频云3.0全景图的AI技术能力)
智能理解分析
通过图像、声音、场景、人物、文本描述等信息,进行视频智能分析、内容智能审核、智能检索。
视觉模态理解框架的升级:提出了一个“预训练+小型化+定制化”新的框架。该框架基于飞桨提供的大规模分类框架、PaddleSlim等组件,有效应对理解任务的复杂性,解决场景数据的稀缺性。在人脸任务上,全场景下识别相对错误率下降40%。在其他一些垂类任务上,训练的标注量可以减少40%以上。
知识增强的视频理解:基于知识的视频语义理解技术,充分利用丰富而全面的知识图谱提升视频理解效果。该技术通过对视觉、语音、文本的多模态内容进行解析与融合,再利用知识关联技术建立与视频理解知识图谱的连接,并根据背景知识以及知识计算与推理技术,实现对视频的深度语义理解。这项技术打破了在传统技术中,视频内容分析基于感知的局限性,实现对视频的深度结构化语义理解,大幅提升视频理解的效果。
(智能理解分析)
视频智能生产
通过图文资讯、数据、图集等多种内容载体,进行智能编辑与智能创作。
视觉模态创新丰富的能力:可将多种内容载体向视频形式进行自动转换,提升传播效率。目前百度智能云支持多种视频生产方式,包括图文,数据,图集等转视频,长视频拆短视频及Video-in等生产形式。
知识增强的视频生产:基于知识图谱的视频生产技术是百度智能云视频生产的亮点技术。
其中,借助知识图谱的海量事实,可生产关于实体属性、关系的各种知识类、趣味性的盘点视频;通过对影视剧的多模语义理解,可将某一类场景镜头进行聚合,呈现作品的精彩片段。
(脉络视频生产)
事件脉络生成则是基于知识图谱中一项核心技术能力。基于多轮问答技术,可达到事件监测和事件论元抽取的能力;再通过事件识别、聚类、归一等技术总体构建事件脉络生成技术,可以实现对客观事件的动态理解。基于事件脉络能力,可生成关于热点事件来龙去脉的报道视频。
视频交互与生成
智能视频云拥有丰富的技术能力,全新构建了交互与生成AI能力矩阵,从AR特效等技术到新型的驱动特效,风格特效等,再到多模态生成,支持各种各样的泛娱乐场景的视频交互与生成需求。
(视频交互与生成)
视觉模态的任意风格化:基于元学习、多风格Adaptation技术、Few-shotLearning等技术,可根据需求快速定制不同风格的高质量视频。
多模态生成的数字人:通过多模态技术,结合虚拟数字人形象与语音合成、唇动等生成技术,可低成本制作形象丰富灵动、线上线下多端覆盖的的数字人,不仅交互自然、声音动听,还能够适配多种业务场景需求。
目前数字人的应用载体较为广泛,除了PC端以及手持移动设备以外,百度智能云自研了智能云屏、智能云席等数字人的新载体。为了更好的模拟真人交互,在云屏、云席等数字人载体上集成定制摄像头以检测面部动态,设置了的扇形拾音区域采集实音,这样可以更好的识别主说话人,从而解决“鸡尾酒会问题”。
今年两会期间百度智能云与央视网合作推出虚拟数字人小C,进行“两会C+真探”的虚拟记者采访项目,一时收到市场广泛
转载请注明:http://www.aideyishus.com/lkjg/3547.html