利用超分辨重建提升实时视频用户体验

(整期优先)网络出版时间:2023-02-27
/ 2

利用超分辨重建提升实时视频用户体验

陈铤沛,袁一平,向文馗,刘博文

西南民族大学 四川省 成都市 610041

摘要

提升用户体验(QoE)是流媒体应用中一个重要且持续发展的问题,随着设备计算能力的不断发展,研究人员试图从用户端寻找有效的解决方案。在我们的研究中发现,视频接收端采用超分辨重建能够利用计算资源,降低视频传输带宽占用,从而能够在用户端有较高的分辨率的同时减少卡顿、延迟的事件发生。本文方法通过(Web Real-Time Communications)Webrtc平台与卷积神经网络(Convolutional Neural Networks,CNN)验证了其可行性。

关键字:视频QOE;超分辨率重建;webrtc;卷积神经网络。

1. 引言

在当前时代,流媒体应用仍然是大趋势。2021年上半年带宽流量以流视频为主,占总流量的 53.72%。与此同时,受新冠肺炎疫情政策的影响,在线办公、在线医疗的应用正在快速增长。在上述场景中,网络情况的优劣对于用户体验的影响至关重要。在过去的一段时间中,基于网络的优化是提升用户体验的主要方法。对网络状况的准确预测可以有效地提升视频流的码率以及降低视频重缓冲等恶性视频播放事件的发生,这对于提升用户体验十分有效。在网络质量下降时,视频质量的下降是必然的,而用户当前设备的计算能力便成了我们可以利用的工具。相对于发生次数较少且不可控的卡顿、断连等恶性网络事件,视频分辨率对用户体验的影响更加的长久,甚至于在面对长时间的低质量视频时,用户可能会直接关闭视频。为了解决这个问题,在视频质量下降的时候,我们在用户端使用超分辨重建对视频的分辨率进行二次提升,对于用户来说,这时稳定且高分辨率的视频观看,将有效地提升用户观看体验。

与常见的利用数学计算公式或者是浅层的机器学习等用于网络优化的算法不同,对图片的超分辨重建需要更深层的机器学习算法,这意味着需要更多的计算资源和计算时间。在流视频中,延迟对用户的体验也有较高的影响,而在实时性更高的在线视频场景中,延迟对用户体验影响的占比就更高了。随着用户设备提供的计算能力逐渐增强以及深度学习算法的发展,我们提出利用超分辨重建将低质量视频向高质量视频映射的方法,这使得用户能够在占用较小带宽的同时保证在线视频的稳定、高清播放。

2. 相关工作

用户体验优化旨在通过有效分配可用网络资源来最大化最终用户的 QoE水平。决定用户体验的影响因子通常由延迟、视频码率、停顿事件、码率切换共同组成,降低视频码率将减少视频占用带宽,视频带宽的减小将降低延迟、卡顿事件的发生,选择合适地视频码率会使得用户体验良好。

WebRTC 是由 Internet 工程任务组 (The Internet Engineering Task Force,IETF) 和万维网联盟 (World Wide Web Consortium,W3C) 定义的新标准,用于在 Web 浏览器中实现实时通信。它包括使用安全实时传输协议(The Secure Real-time Transport Protocol ,SRTP)通过媒体通道传输音频和视频的功能,以及使用基于流控制传输协议(Stream Control Transmission Protocol ,SCTP)的数据通道上的任意数据。我们将利用其作为实验平台以展示我们工作的真实效果。

超分辨率重建:超分辨是指使用计算机算法等手段,将低分辨率图像恢复成相应的高分辨率图像的技术。随着Dong[1]等人首次将深度学习应用于超分辨率重建任务中,大量基于CNN的方法已被提出,构建深层网络用于提取特征是一大趋势。

3.方法

3.1 系统设计

我们在Ubuntu18.04操作系统上布置WebRTC服务作为中转服务器,在windows操作系统上布置客户端与服务端相互传输媒体流,并在客户端配备RTX3060GPU用于超分辨率网络的推理。为了搭建超分辨率网络,我们使用Python编程语言构建客户端代码,客户端使用WebRTC架构提供的PeerConnection连接与服务器建立点对点连接,服务器则只负责转发客户端发送过来的媒体流,不需要对其作任何处理。系统框架图如图1所示,客户A,B通过中转服务器接收来自对方的视频流。

图1整体系统示意图

3.2系统运行策略

用户A、用户B与服务器建立连接之后,分别将本地摄像头获取的音视频一并发送至服务器,服务器则将用户A的音视频转发给用户B,而将用户B的音视频转发给用户A。当网络情况变差时,WebRTC为了保证视频的流畅进行,它使用谷歌的拥塞控制算法GCC降低当前视频的码率,此时客户端的超分网络模块会检测到码率下降,而对于用户最直观的影响就是分辨率降低,下一步超分网络模块将会对视频进行超分辨重建以最大限度地保证用户体验。因为我们的目标是基于深度神经网络的超分辨率来提升客户端视频质量,同时最小化实时流媒体的其他QOE指标影响,换句话说,我们排除了视频编解码器、传输和码率控制算法的影响,我们将在视频显示之前对于视频帧进行超分辨率重建。在实际场景中,频繁的分辨率变换也将极大地影响用户体验,为此,我们将目标分辨率固定在720p。

3.3 超分辨率重建

随着深度学习算法的发展和普遍应用,近些年来深度学习在图像超分辨领域也取得了巨大的成功。深度学习模型一般通过深层的网络结构来学习更有表示性的图像特征,进而提高模型的表现能力。但是更深层的网络结构意味着需要更多的计算时间,在单图进行超分辨重建时,模型的计算时间将不会对其造成恶性的影响,而将其应用于实时视频超分辨重建时,额外的计算时间意味着额外的延迟,过大的延迟会降低用户体验。

本文采用CNN神经网络进行视频超分辨率重建,我们采用两个超分尺度,分别为2倍超分和四倍超分,其分别对应180p视频与360p视频。本文采取了龚等人[2]的RASR模型的超分辨率重建模块,其模型能够能快速地完成图片的超分辨重建。模型的输入为3通道低清图像,通过一层卷积层卷积神经网络进行特征提取,然后再通过由两个残差块和四个通道划分特征提取块加上通道注意力层组合而成的通道划分特征提取器,再通过一层卷积神经,最后经过一层上采样得到目标图像。

该模型在RTX3060上运算平均时间为30ms,能够满足常见的视频30帧播放。采用四倍超分时带宽占用由400kb/s下降至25kb/s。

4. 结语

本文通过在webrtc平台构建一套完整的实时视频超分辨系统,并且在系统中使用了当前运算速率较快的超分模型,验证了通过超分辨技术提高用户体验的可行性。同时通过实验验证了超分辨重建能够在视频分辨率不下降的情况下有效地降低对网络带宽的需求,降低了影响用户体验的恶性事件的发生概率。

参考文献

[1] Dong C, Loy C C, He K, Tang X. Learning a Deep Convolutional Network for Image Super-Resolution[C]. FLEET D, PAJDLA T, SCHIELE B, TUYTELAARS T. //Computer Vision – ECCV 2014. Cham:Springer International Publishing,2014: 184–199. 2014: 184–199.

[2] 龚柯存,周梦琳,唐东明.区域感知实时人像超分辨率重建网络[J/OL].北京航空航天大学学报:1-11[2022-12-11].DOI:10.13700/j.bh.1001-5965.2022.0394.

基金项目:受西南民族大学中央高校基本科研业务费专项资金资助(项目编号:2021NYYXS58)