以用户QoE预测值为奖励的视频自适应比特率算法

叶进; 肖庆宇; 陈梓晗; 陈贵豪; 李陶深

doi:10.12178/1001-0548.2020325

以用户QoE预测值为奖励的视频自适应比特率算法

doi: 10.12178/1001-0548.2020325

广西大学计算机与电子信息学院　南宁　530004

基金项目: 国家自然科学基金(61762030, 61872387)；广西自然科学基金(2018JJA70209)

详细信息

作者简介:
叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

中图分类号: TP393

A Video Adaptive Bitrate Algorithm with User QoE Prediction as Reward

School of Computer and Electronic Information, Guangxi University　Nanning　530004

摘要: 该文提出了一种基于深度学习的用户体验质量预测网络(UQPN)，通过当前视频播放状态预测当前用户的QoE并进行建模，旨在采用UQPN替代以往方法的奖励函数，使得生成的自适应比特率算法做出更符合用户需求的比特率决策。实验证明与已有的奖励函数相比，UQPN的预测与真实QoE的相关系数更高，以该网络作为强化学习奖励得到的算法能够将用户体验质量提高20%。
- 自适应比特率算法 /
- 用户体验质量 /
- 强化学习 /
- 奖励
Abstract: This paper proposes a deep learning-based user QoE prediction network (UQPN)). In this work, the current user's QoE is predicted and modeled based on the current video playback states, and UQPN is used to replace the existing reward functions, in this way the generated ABR algorithm can make bitrate decisions more in line with user requirements. Experiments and the comparison with the existing reward functions show that he correlation coefficient of UQPN prediction and user QoE is higher, and the algorithm using UQPN as reinforcement learning reward can improve user QoE by at least 20%.
- adaptive bitrate algorithm /
- quality of experience /
- reinforcement learning /
- reward
图 1 ABR算法整体结构

下载: 全尺寸图片幻灯片

图 2 3种奖励方法得到的ABR模型QoE对比

下载: 全尺寸图片幻灯片

图 3 3种基于RL的ABR方法性能对比

下载: 全尺寸图片幻灯片

表 1 UQPN与其他奖励函数相关性对比

方法 LCC SROCC

Pensive 0.6871 0.7244
MPC 0.7102 0.7324
Comyo 0.7507 0.7419
D-DASH 0.7043 0.7273
UQPN 0.8413 0.8278

下载: 导出CSV

[1]	ITU-T Recommendation. Definition of quality of experience (QoE)[EB/OL]. [2007-07-16]. https://www.itu.int/rec/T-REC-P.10-201607-S!Amd5/en.
[2]	MOK R K P, CHAN E W W, CHANG R K C. Measuring the quality of experience of HTTP video streaming[C]//Proceedings of the 12th IFIP/IEEE International Symposium on Integrated Network Management. Dublin, Ireland: IEEE, 2011: 485-492.
[3]	BENTALEB A, TAANI B, BEGEN A C, et al. A survey on bitrate adaptation schemes for streaming media over HTTP[J]. IEEE Communications Surveys & Tutorials, 2019, 21(1): 562-585.
[4]	JIANG J, SEKAR V, ZHANG H. Improving fairness, efficiency, and stability in HTTP-based adaptive video streaming with festive[J]. IEEE/ACM Transactions on Networking, 2014, 22(1): 326-340. doi: 10.1109/TNET.2013.2291681
[5]	HUANG T Y, JOHARI R, MCKEOWN N, et al. A buffer-based approach to rate adaptation: Evidence from a large video streaming service[J]. ACM Sigcomm Computer Communication Review, 2014, 44(4): 187-198.
[6]	YIN X, JINDAL A, SEKAR V, et al. A control-theoretic approach for dynamic adaptive video streaming over HTTP[J]. ACM Sigcomm Computer Communication Review, 2015, 45(4): 325-338. doi: 10.1145/2829988.2787486
[7]	葛志辉, 张旭锋, 宋玲, 等. 基于电池电量感知的移动流媒体QoE优化策略[J]. 北京邮电大学学报, 2018, 41(6): 78-82. GE Zhi-hui, ZHANG Xu-feng, SONG Ling, et al. Power-aware video QoE optimization strategy for mobile video streaming[J]. Journal of Beijing University of Posts and Telecommunications, 2018, 41(6): 78-82.
[8]	AKHTAR Z, NAM Y S, GOVINDAN R, et al. Oboe: Auto-tuning video ABR algorithms to network conditions[C]//2018 Conference of the ACM Special Interest Group. Budapest: ACM, 2018: 44-58.
[9]	GADALETA M, CHIARIOTTI F, ROSSI M, et al. D-DASH: A deep Q-learning framework for DASH video streaming[J]. IEEE Transactions on Cognitive Communications & Networking, 2017(4): 1.
[10]	HUANG T, YAO X, WU C, et al. Tiyuntsong: A self-play reinforcement learning approach for ABR video streaming[C]//2019 IEEE International Conference on Multimedia and Expo (ICME). Shanghai: IEEE, 2019: 1678-1683.
[11]	MAO H, NETRAVALI R, ALIZADEH M. Neural adaptive video streaming with pensieve[C]//Conference of the ACM Special Interest Group on Data Communication. Los Angeles: IEEE, 2017: 197-210.
[12]	MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//The 33rd International Conference on International Conference on Machine Learning (ICML). New York: ACM, 2016: 1928-1937.
[13]	SENGUPTA S, GANGULY N, CHAKRABORTY S, et al. HotDASH: Hotspot aware adaptive video streaming using deep reinforcement learning[C]//IEEE International Conference on Network Protocols. Cambridge: IEEE, 2018: 165-175.
[14]	HUANG T, ZHOU C, ZHANG R, et al. Comyco: Quality-aware adaptive video streaming via imitation learning[C]//The 27th ACM International Conference on Multimedia. Nice: ACM, 2019: 429-437.
[15]	BAMPIS C G, BOVIK A C. Feature-based prediction of streaming video QoE: Distortions, stalling and memory[J]. Signal Processing Image Communication, 2018(68): 218-228.
[16]	BAMPIS C G, LI Z, KATSAVOUNIDIS I, et al. Recurrent and dynamic models for predicting streaming video quality of experience[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3316-3331. doi: 10.1109/TIP.2018.2815842
[17]	ESWARA N, ASHIQUE S, PANCHBHAI A, et al. Streaming video QoE modeling and prediction: A long short-term memory approach[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(3): 661-673. doi: 10.1109/TCSVT.2019.2895223
[18]	YE K, ANTON F K, HERINGA J, et al. Multi-RELIEF: A method to recognize specificity determining residues from multiple sequence alignments using a machine-learning approach for feature weighting[J]. Bioinformatics, 2007, 24(1): 18-25.
[19]	DUANMU Z, REHMAN A, WANG Z. A quality-of-experience database for adaptive video streaming[J]. IEEE Transactions on Broadcasting, 2018, 64(2): 474-487. doi: 10.1109/TBC.2018.2822870
[20]	Federal Communications Commission. Raw data-measuring broadband america[EB/OL]. [2020-6-8]. https://www.fcc.gov/reports-research/reports/measuring-broadband-america.
[21]	HAAKON R, PAUL V, CARSTEN G, et al. Commute path bandwidth traces from 3G networks: Analysis and applications[C]//The 4th ACM Multimedia Systems Conference (MMSys). New York: ACM, 2013: 114-118.

[1]	胡浪涛, 杨瑞, 刘全金, 吴建岚, 嵇文, 吴磊. 深度强化学习下连续和离散相位RIS毫米波通信 . 电子科技大学学报, 2024, 53(1): 50-59. doi: 10.12178/1001-0548.2022285
[2]	翟社平, 李航, 亢鑫年, 杨锐. 融合强化学习的实体关系联合抽取模型 . 电子科技大学学报, 2024, 53(2): 243-251. doi: 10.12178/1001-0548.2023107
[3]	彭昌猛, 夏茂菡, 黄晓洋, 傅志中, 徐进, 李晓峰. 基于自适应伪轮廓消除滤波的比特深度增强 . 电子科技大学学报, 2023, 52(3): 348-356. doi: 10.12178/1001-0548.2022169
[4]	朱献超, 侯晓凯, 吴绍君, 祝峰. 基于情景记忆的量子深度强化学习 . 电子科技大学学报, 2022, 51(2): 170-175. doi: 10.12178/1001-0548.2022043
[5]	李新民, 尹宝林, 魏李莉, 张晓强. 强化学习无人机通信系统中的信息年龄优化 . 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
[6]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[7]	高远翔, 罗龙, 孙罡. 基于强化学习的多阶段网络分组路由方法 . 电子科技大学学报, 2022, 51(2): 200-206. doi: 10.12178/1001-0548.2021260
[8]	胡浪涛, 毕松姣, 刘全金, 吴建岚, 杨瑞. 基于深度强化学习的多小区NOMA能效优化功率分配算法 . 电子科技大学学报, 2022, 51(3): 384-391. doi: 10.12178/1001-0548.2021193
[9]	张凤荔, 赵佳君, 刘东, 王瑞锦. 基于深度强化学习的边云协同串行任务卸载算法 . 电子科技大学学报, 2021, 50(3): 398-404. doi: 10.12178/1001-0548.2021015
[10]	史治平, 黄文才, 王臣玺, 罗萱. 基于滑窗BATS码的低时延图像渐进传输方案设计 . 电子科技大学学报, 2021, 50(4): 496-501. doi: 10.12178/1001-0548.2020280
[11]	鲁华祥, 尹世远, 龚国良, 刘毅, 陈刚. 基于深度确定性策略梯度的粒子群算法 . 电子科技大学学报, 2021, 50(2): 199-206. doi: 10.12178/1001-0548.2020420
[12]	林粤伟. 基于强化学习的LTE与WiFi异构网络共存机制 . 电子科技大学学报, 2021, 50(3): 375-381. doi: 10.12178/1001-0548.2019303
[13]	. 一种自适应在线学习测评方法 . 电子科技大学学报, 2020, 49(5): 1-7. doi: 10.12178/1001-0548.2019259
[14]	秦爽, 赵冠群, 冯钢. 基于多智体强化学习的接入网络切片动态切换 . 电子科技大学学报, 2020, 49(2): 162-168. doi: 10.12178/1001-0548.2020049
[15]	吴佳, 陈森朋, 陈修云, 周瑞. 基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
[16]	郝晓丽, 刘伟, 牛保宁, 吕进来. 基于自适应学习率的运动目标高效检测算法 . 电子科技大学学报, 2020, 49(1): 123-130. doi: 10.12178/1001-0548.2019131
[17]	谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法 . 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
[18]	黄庆东, 石斌宇, 郭民鹏, 袁润芝, 陈晨. 基于Q-learning的分布式自适应拓扑稳定性算法 . 电子科技大学学报, 2020, 49(2): 262-268. doi: 10.12178/1001-0548.2019076
[19]	史豪斌, 徐梦. 基于强化学习的旋翼无人机智能追踪方法 . 电子科技大学学报, 2019, 48(4): 553-559. doi: 10.3969/j.issn.1001-0548.2019.04.012
[20]	向中凡. Q学习角色值法在机器人足球比赛中的应用 . 电子科技大学学报, 2007, 36(4): 809-812.

点击查看大图

图(3) / 表(1)

计量

文章访问数: 5077
HTML全文浏览量: 1437
PDF下载量: 47
被引次数: 0

全文HTML

近年来，基于HTTP的视频流观看需求迅速增长。为了在各种网络条件下实现流畅的视频播放，客户端视频播放器采用自适应比特率(adaptive bitrate, ABR)算法来动态确定每个视频块的比特率以优化视频质量。这样做的目标是使视频比特率适应潜在的网络条件来最大化用户的体验质量(quality of experience, QoE)。但是由于网络流量的高突发性，为每一个视频块选择一个合适的比特率是具有挑战性的。

国际电信联盟(international telecommunication union, ITU)对QoE进行了明确的定义^[1]，即一个应用或一项服务的整体可接受性，它由终端用户的主观感知决定。当QoE较差时，用户可能会更早关闭视频页面，这导致视频内容提供方的大量经济损失。而在视频传输场景下，QoE是指用户在某一次观看视频后对这次观看体验的接受性。一些现有研究以评分的形式直接从用户处获取QoE，文献[2]则采用一些应用层或网络层的指标来定义QoE。

现有的ABR算法采用固定的控制规则来选择未来的视频比特率。但这类方法具有很强的假设性，难以适应不同的网络环境。因此利用强化学习(reinforcement learning, RL)生成ABR的方法被提出，能从零开始学习并生成算法而无需任何网络假设，这类方法通过提高训练时的奖励值来优化神经网络，而奖励定义为QoE函数。但奖励函数往往被预先设置且设置时缺乏现实依据，因此该类基于RL的方法具有获得相对良好的奖励值的能力，但它们也可能为用户提供与用户期望不匹配的观看体验。

播放视频时用户QoE受到多种因素影响，以准确的QoE值作为RL训练时的奖励，能让ABR朝着最大化QoE的方向做出比特率决策。QoE与视频播放时的指标密切相关，其中包括视频播放时的卡顿持续时间、平均播放比特率和比特率的变化值等。恰当的奖励函数设计能使奖励值的变化更贴近真实用户的QoE。但如何确定用于ABR的奖励，目前缺乏统一的标准，而现有方法中的奖励函数在训练之前就被预先设置，且设置过程缺乏描述和依据，无法得知是否与用户真实意图相匹配。

本文提出用户QoE预测网络(user QoE prediction network, UQPN)，以真实用户数据进行监督学习并预测用户QoE的方法。UQPN将视频流状态作为输入，输出为现在用户的QoE预测分数，并以UQPN作为“奖励函数”。本文提出了一种基于RL的ABR算法，引入UQPN加入ABR训练过程，避免了奖励函数建模的盲目性，从而使ABR算法可以在满足用户要求的方向上进行训练。

1. 相关工作

基于客户端的ABR算法主要分为两种类型：基于模型的方法和基于学习的方法^[3]。

第一类方法考虑了吞吐量的预测值和视频缓冲区大小等因素来选择比特率。文献[4]通过过去视频块大小和下载时间预测网络吞吐量，并以此作为未来吞吐量的估计值，估计值大时选择高视频比特率。另一些方法通过观察缓冲区大小来避免卡顿事件，并以此作为标准为下一个视频块选择尽可能高的比特率。文献[5]提出了一个线性标准阈值来控制可用的播放缓冲区大小。以model predictive control (MPC)^[6]为代表的混合策略综合考虑了吞吐量预测值和缓冲区大小，进行下一个视频块的比特率决策。此外，文献[7]研究了电池电量与移动流媒体QoE的关系。文献[8]提出的Oboe对现有ABR策略参数进行自动调整，使现有算法能够找到更佳的参数配置。此类方法往往针对某些网络条件，并在具有较强假设的前提下进行设计，严重依赖于微调的参数，难以适用于不同的网络环境。

基于学习的方法针对上述不足进行了改进，在获取到不同网络条件下的经验后，该类算法能够显著提高ABR的性能。D-DASH (a deep Q-learning frame work for dynamic adaptive streaming over HTTP)^[9]结合了深度学习和强化学习技术，利用深度Q-learning这种基于价值的强化学习方法优化视频的QoE。在相同的网络条件下，Tiyuntsong^[10]用生成对抗网络，通过两个智能体的竞争来朝着规则或特定的奖励进行自我优化。Pensieve^[11]采用最新的A3C^[12]算法生成ABR算法模型，其中包含两个神经网络模型，一个用于比特率决策，另一个用于评估当前状态并给出状态价值，实验结果显示其性能优于基于模型的方法。HOT Dash^[13]将视频中的帧区分为热点和非热点，并将热点部分在带宽允许时优先传输，这样的做法使用户能够高质量的观看特定视频块。Comyco^[14]针对该类方法采样效率低的缺陷，通过模仿即时求解器给出的专家轨迹来训练策略，这不仅可以避免多余的探索，还可以更好地利用收集的样本。

上述方法在训练时拥有相同的目标：最大化累计奖励值。基于学习的方法多采用线性QoE公式作为奖励函数，应用层的网络或播放器参数作为其输入，每一项参数给与固定的权重以表示对其的重视程度，但是权重的设置过程缺乏描述和依据。因此出现了一些采用机器学习的方法对用户的QoE进行预测。Video ATLAS^[15]是一种机器学习框架，其中结合了许多与QoE相关的特征，包括客观视频质量、卡顿以及记忆特征进行QoE预测。在此基础上，文献[16]采用非线性自回归外生模型来在连续时间上对QoE进行预测，在帧级别的粒度上测量QoE，并利用了多模型联合预测来提升准确率。文献[17]选择长短期记忆网络(long short-term memory, LSTM)来捕捉QoE在时序上的依赖关系，并在真实的用户数据上展现了良好的性能。

综上，现有强化学习的训练目标都可以被描述成使预期的累计奖励值达到最大化，而基于RL的ABR算法输出比特率决策，视频播放器以该比特率请求下载下一个视频块。下载完成后状态发生转移，奖励函数以这些状态指标作为输入，计算得到下一步的奖励值，从而使算法模型沿着奖励值的梯度方向进行更新，因此奖励函数的设置对于算法性能具有重要影响。如果奖励函数设计未经充分考虑，一般会导致网络不收敛，结果不优或者使模型无法按照希望的方法做出决策。

已有基于RL的ABR算法均以量化的QoE作为奖励值。QoE由播放中的指标如视频平均比特率、卡顿时间、比特率切换值等构成，每项指标赋予固定的权重表达对其重视程度。但由于用户的主观因素(如期望、体验经历)和环境因素，QoE的量化十分复杂。奖励函数中权重的设置体现了用户对不同指标的倾向，而定量描述用户对这样的事件的倾向，用以确定奖励函数的设置是一项难以实施的工作。本文认为，ABR算法奖励值应该体现对播放质量变化事件的相应惩罚或奖励，应该针对用户QoE进行大量采样和训练建模，用以研究用户QoE预测的方法。因此本文提出了UQPN，从用户数据出发训练得到QoE预测模型代替以往的函数，以此网络用于训练，能够获得更加符合用户需求的ABR算法模型。

4. 结束语

本文提出了一种使用用户QoE预测值作为强化学习奖励的自适应比特率算法。有了更加准确的QoE预测值加入训练，该方法能够给用户带来更好的观看体验。该方法采用离线训练，仅基于收集的数据即可生成算法模型，其输入参数也易于获取，无需修改现有的流媒体视频传输框架，具备较好的可行性。未来的工作中，将考虑采用更细粒度、更准确的方法来探索用户在观看视频时的QoE变化，能够更准确把握用户在观看视频时的感受，为用户提供更好的观看体验。

参考文献 (21)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

以用户QoE预测值为奖励的视频自适应比特率算法

doi: 10.12178/1001-0548.2020325

作者简介:
叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

A Video Adaptive Bitrate Algorithm with User QoE Prediction as Reward

计量

以用户QoE预测值为奖励的视频自适应比特率算法

doi: 10.12178/1001-0548.2020325

广西大学计算机与电子信息学院　南宁　530004

作者简介:
叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

English Abstract

A Video Adaptive Bitrate Algorithm with User QoE Prediction as Reward

School of Computer and Electronic Information, Guangxi University　Nanning　530004

全文HTML

2.1. UQPN设计

2.2. 基于UQPN的ABR算法

2.3. 模型更新

3.1. 相关性对比

3.2. 不同RL奖励方法对比

3.3. 基于RL的ABR算法性能对比

目录

期刊在线

编辑办公

友情链接

方法	LCC	SROCC
Pensive	0.6871	0.7244
MPC	0.7102	0.7324
Comyo	0.7507	0.7419
D-DASH	0.7043	0.7273
UQPN	0.8413	0.8278

留言板

以用户QoE预测值为奖励的视频自适应比特率算法

doi: 10.12178/1001-0548.2020325

作者简介: 叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

A Video Adaptive Bitrate Algorithm with User QoE Prediction as Reward

计量

出版历程

以用户QoE预测值为奖励的视频自适应比特率算法

doi: 10.12178/1001-0548.2020325

广西大学计算机与电子信息学院 南宁 530004

作者简介: 叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

English Abstract

A Video Adaptive Bitrate Algorithm with User QoE Prediction as Reward

School of Computer and Electronic Information, Guangxi University Nanning 530004

全文HTML

2.1. UQPN设计

2.2. 基于UQPN的ABR算法

2.3. 模型更新

3.1. 相关性对比

3.2. 不同RL奖励方法对比

3.3. 基于RL的ABR算法性能对比

目录

期刊在线

编辑办公

友情链接

作者简介:
叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

广西大学计算机与电子信息学院　南宁　530004

作者简介:
叶进(1970-)，女，博士，教授，主要从事网络协议设计、数据中心网络等方面的研究. E-mail：yejin@gxu.edu.cn

School of Computer and Electronic Information, Guangxi University　Nanning　530004