移动HDR Vivid软渲染、8K超高清、实时智能字幕、AVS3标准移动端落地……探索咪咕视频在冬奥期间的技术创新与应用

LiveVideoStack

发布于 2022-03-04 13:13:55

1.8K0

文章被收录于专栏：音视频技术音视频技术

点击上方“LiveVideoStack”关注我们

咪咕视频

冬奥特辑

#002#

编者按：在刚刚过去的冬奥期间，中国移动旗下的咪咕视频屡次出圈，其中奥运冠军王濛的激情解说“我的眼睛就是尺”，更是数次登上热搜。作为获得2022北京冬奥直播版权之一的视频平台，咪咕在本次冬奥赛事直播转播中收获了无数好评，其应用下载量一路飙升。除了庞大的明星解说阵容，在此次冬奥中的音视频技术创新上，咪咕还创造了很多历史上的“第一次”。最近LiveVideoStack采访了咪咕公司的音视频AI领域资深专家、高级研发总监周效军，在此次与LiveVideoStack的对话中，他分享了咪咕在冬奥直播转播赛事过程中对音视频和AI等技术的创新和应用。

咪咕音视频AI领域资深专家、高级研发总监周效军

LiveVideoStack: 周老师，您好，在采访开始之前，请您向我们的读者介绍一下自己。

周效军：当前就职于中国移动咪咕文化科技有限公司，担任咪咕的音视频AI领域资深专家、高级研发总监。我从事互联网业务能力系统、音视频AI创新智作技术研发和团队管理工作近十五年，撰写五十余篇专利、论文，聚焦新文娱类AI能力研发和产品应用，依托海量互联网文娱媒资内容进行智处理和智创作，比如智能标签、智能剪辑、AI横转竖内容创作、智能语音、沉浸式空间音频、自然语言理解和智能交互等。目前我们团队已主导研发多种AI算法类能力系统，并落地于实际生产中，在多项国内国际重大赛事、活动中应用，如2018年世界杯、建国70周年、东京奥运会、北京冬奥会等大型直播。其中刚结束的北京冬季奥运会中，我们团队自主研发的智能字幕能力首次在大型国际体育赛事直播转播应用。

LiveVideoStack: 作为第24届冬奥会的官方持权转播商，咪咕在此次转播中频频破圈，受到了观众们的一致好评。为了保障冬奥会全量赛事的直播转播顺利进行，咪咕的技术人员都做了哪些努力？

周效军：咪咕在重大赛事直播转播保障中逐步积累了比较成熟的经验。本次冬奥会，我们技术人员通过业务保障和技术创新实现全量赛事的直播转播顺利进行。

在业务保障方面，赛前制定详细的业务模型测算，全方位周密部署高效、快速响应的应急预案。

在技术创新方面，技术团队首次实现国际大型赛事直播智能字幕功能，以超过95%的字幕准确率帮助用户更好地理解赛事，获得社会各界的肯定；实现AVS3标准在移动端直播场景首次试点落地，解码性能较HEVC提升30%；探索应用移动端HDR Vivid解决方案，画面亮度提高40倍、色彩范围增加72%；上线超写实数智达人——谷爱凌的数字分身Meet GU陪伴大家观看比赛等等。

咪咕技术人员通过业务保障和技术创新两股合力为用户呈现了一场“零重大网络故障、零重大网络安全事件、零重要客户投诉”，并且科技感满满，暖心的精彩赛事。

LiveVideoStack：去年6月的欧洲杯，咪咕首次将HDR Vivid（菁彩HDR）技术运用在国际大型体育赛事上。据我们了解，刚刚过去的冬奥，咪咕探索了一种移动端HDR Vivid软渲染的解决方案，拓展了HDR Vivid标准的应用范围。您能否详细跟我们介绍一下？

周效军：HDR Vivid（菁彩HDR）作为我国自主知识产权的高动态范围视频技术标准,与传统的SDR（标准动态范围）相比，在对比度、色域、动态元数据、智能映射等多项技术参数上均存在较大优势。它可以全面提升画面质感，呈现更卓越、更舒适的视觉效果，为用户带来“还原真实,让所见成真”的视觉盛宴。此前我们也将HDR Vivid用在了欧洲杯赛事中，为用户带来了比较好的观赛体验。当时，我们是通过硬件解码的方式实现的。

在刚刚过去的冬奥，咪咕公司探索了一种移动端HDR Vivid软渲染的解决方案，拓展了HDR Vivid标准的应用范围。通过增加动态元数据为显示终端提供更加准确的动态范围映射方式，保证视频具有更广的色彩容积和更高的动态范围，为图像保留更多细节。通过丰富的图像亮部和暗部细节，在对比度、灰度等维度上提升影像质量，让用户眼中的影像更加细腻真实，更富有感染力。

我们从以下几个方面挖掘HDR Vivid技术特色，提升内容色彩真实感，为用户带来更为真实细腻的赛事观看体验。

支持帧级动态元数据调整，支持0.05nits到10000nits的高动态范围，映射曲线引入比 PQ 曲线更多的分段区间及更复杂的三次样条曲线，在低于100nits的暗区和高于2000nits的亮区比 PQ 有更精细的亮度映射，从而获取更精细的纹理细节。
结合咪咕体育业务，针对冬奥会、足球、篮球体育场景的特殊优化；针对冰雪高亮场景进行动态处理，对特写镜头、慢放镜头等使用基于 ROI的肤色优化算法，展现更为真实的观感。
逐帧色彩校正，针对户外高亮区域（高亮度）、夜景（低亮度）分别进行不同的图像处理，增强曝光不足，展现更多的暗区信息，模拟填充亮区细节。结合时域信息，展现更多细节，且不产生闪烁。针对中间部分色彩区域，运用颜色增强算法：通过使用光照图做中介，在动态范围压缩、色彩增强和颜色恒常三个方面达到平衡，避免颜色增强时，引入失真、噪声、色块等问题。

同时软渲染的解决方案通过优化视频解码器，采用CPU多线程协同，视频码流解码与HDR Vivid关键元数据提取同时进行的方式探索而成。基于软渲染的解决方案的HDR Vivid，在4K/8K高分辨率下，峰值亮度最高可达到10000尼特；基于BT.2020的广阔色域，最多包含颜色达到687亿种。这是HDR Vivid技术首次通过软件解码方式在移动端试验直播业务。同时我们针对冰雪运动画面进一步渲染优化，使高亮的冰雪画面层次更丰富，画面质感更细腻，运动员主体更突出，为冬奥还原了更真实的视觉效果。

图1 端到端流实现方案

LiveVideoStack：我们知道， HDR Vivid 的实现需要涉及从拍摄、编码、后期、转码和显示等方面全链路的支持，那么咪咕在落地HDR Vivid的过程中，如何能够在不同终端设备和视频条件下，还原出HDR 视频的本来“面目”？

周效军：HDR技术是一个端到端的生态系统，完整地定义了超高清视频呈现处理HDR的过程，从方法上保证对高质量视频的忠实还原。从前端摄像机的拍摄开始，包括后期制作、编解码以及到呈现等环节都需要支持并应用HDR对应的标准。

若想在终端设备中还原出HDR视频，首先，源端素材需要输入格式为HDR 的视频，对于其他格式视频（如 SDR 等），则需要先转为 HDR 视频再输入；随后，我们通过前处理模块将输入信号转换到PQ域，进行静态元数据和动态元数据的提取。再通过编码传输模块将HDR视频和HDR元数据进行视频编码，输出码流。

解码时，我们对码流进行解码分析，输出HDR解码视频和HDR元数据；HDR显示和SDR显示结合静态元数据、动态元数据和目标显示终端参数处理HDR解码视频，并将处理之后的视频在显示终端上正确显示。

举个例子来说吧，如果在直播场景下还原HDR，需要对原始素材进行HDR前处理，输出带HDR Vivid元数据内容的视频码流，使得后端直播播放终端能够根据接入码流直接渲染输出动态HDR效果。值得一提的是，在直播应用场景下，整个HDR Vivid前处理是根据规范流程自动生成的，非人工介入，支持批量快速生成高质量HDR Vivid的视频内容，HDR自动转换处理流程具备普适性，兼容各类视频源素材及各种应用播放终端。

在HDR Vivid实现中，终端侧通常使用标准处理环节进行元数据解析、曲线映射和终端渲染。其中元数据处理会对设备类型进行判断解析出不同类型的动态元数据，曲线映射主要负责按照Vivid标准规定的Tone-Mapping 映射曲线，渲染模块是根据HDR Vivid标准设计的色彩调整策略。

LiveVideoStack：咪咕直播里有一个多解说切换功能，我看到其中有一个名为“为了听不到的你”的智能字幕，为什么会上线这样一个功能？实现这一功能需要哪些技术手段？

周效军：随着新媒体技术与智能设备的发展，视频已经成为网络传播的主体内容。遗憾的是，全球有超4亿人听力受损，忍受着“听不清，听不真”的困扰；普通用户也常常受限于“静音”场景或者“嘈杂”环境而错过精彩解说；还有一些专业术语比较多的直播场景，也因不够了解专业术语听不懂。针对这些观赛痛点，我们一直在思考AI能做什么。对此，咪咕研发了实时字幕功能，并在冬奥期间以“为了听不到的你”这样一个视角对外提供，目的就是解决以上问题，这也是国内实时字幕在大型体育赛事直播中的首次尝试。

“为了听不到的你”智能字幕功能依托语音识别、机器翻译技术实现，同时为了在体育赛事场景下获得更高的准确率，我们还围绕体育场景对算法模型进行精细化提升，结合咪咕公司自研知识图谱、多场景智能纠错、语法语义分析、音频增强，音频降噪等技术手段，从体育类专业知识、运动员姓名、字幕的语法表达、直播音频的清晰准确上全面提升体育直播字幕准确率，平均准确率超过95%，雪车雪橇等项目准确率达98%，有效解决了体育直播面临的“听不到，听不清，听不懂”问题。

“为了听不到的你”智能字幕功能上线后，当我们看到人民网、中国聋协、人民邮电报等多家媒体还有网友们对这个功能为体育赛事、为特殊人群带来价值的认可，我们觉得之前的一切辛苦都是值得的。

图2 智能字幕实现流程示意图

LiveVideoStack：冬奥期间，咪咕携手北京大学、上海交通大学，将AVS3编解码标准应用在咪咕视频赛事直播中。据悉，这是AVS3标准在移动端直播场景首次应用及落地。在这次移动端技术探索过程中，你们遇到了哪些挑战？相比于其他编码标准，AVS3在直播体育赛事这一领域有哪些优势？

周效军：AVS3是全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准。咪咕公司联合北京大学、上海交通大学将我国全自主知识产权的AVS3编解码标准首次落地应用在移动端直播场景。首先在标准的采纳上，我们就做出了很多努力。从2019年我们就加入到AVS工作组，先后提交20余项提案并被采纳为标准。其次在应用方面，我们也是首次将国产编解码技术标准应用在移动端直播场景，为保证冬奥期间给大家更好的呈现，我们前期也是进行了很多磨合与演练，这其中的过程可以说是十分波折的。

相比其他编码标准，AVS3率先发布了面向8K超高清视频的新一代编码标准，编码性能与国际视频编码标准HEVC相比，不仅具备独立的知识产权，性能也提升接近30%。AVS3同比AVS上一代视频编码标准，在块划分结构、参考帧管理、预测、变换等模块也都进行了创新，增加了很多新的编码技术，编码效率大幅提升。我们将具备更精细的块划分方案、更高效准确的预测算法、适配性更高的变换模式以及效率更高的滤波算法的AVS3编码标准应用在直播编码时，发现在相同码率下，视频质量明显优于H.265/HEVC，运动员在冰雪赛场上的矫健身影每一帧都更加清晰可见。在摄像头采集画面和前处理流程后，我们基于AVS3将视频数据的冗余信息去除，对图像进行压缩、存储及传输，再将视频进行解码及格式转换，实现超高清内容的还原，细节更丰富、画面更逼真、层次更立体。这就是AVS3编码在直播体育赛事领域的一些优势。

LiveVideoStack：整个冬奥直播转播的过程中，咪咕技术团队遇到的最大困难是什么？又是如何克服的？

周效军：作为技术团队，在此次冬奥期间，我们不仅进行了一些常规的技术支撑与保障，还充分地思考如何将科技创新赋能到体育赛事中。创新功能的尝试与突破，实现创新功能的普遍适用，更好地与现网直播转播适配，进而为用户呈现出完美的效果，是个很大的挑战。

比如，在HDR Vivid应用过程中，我们就曾面临过普适性的问题。像刚刚问题中谈到的，我们实际上在欧洲杯期间就已经应用了HDR Vivid，但是当时是通过硬件解码的方式实现的，然而部分手机芯片解码对HDR Vivid标准是不支持的，HDR Vivid仅能在少部分手机上呈现。为了解决这个应用范围窄的问题，我们不断探索，最终实现了移动端HDR Vivid软渲染的解决方案，拓展了HDR Vivid的应用范围。并且针对冰雪运动画面进一步渲染优化，使高亮的冰雪画面层次更丰富，画面质感更细腻，运动员主体更突出，还原更真实的视觉效果，并成功应用在冬奥，给大家带来不错的体验。

再比如，为了保障智能字幕的准确性和实时性，我们参考了国际顶尖的自然语言学术论文、先进的理论研究，结合实际生产遇到的问题，进行大量的改进、优化，研发出一套完整的解决方案，应用于实践中，针对奥运垂直场景进行攻关。对往届奥运会全面地毯式演练测试，分析定位，回归优化，最终体育直播场景下的智能字幕准确率平均超过95%，比优化前提升了8%，个别项目更是达到98%。保证了专业解说准确地呈现在屏幕上，真正地帮助观众理解冬奥，更好地参与冬奥，提升观众观赛体验。

LiveVideoStack：除了上面我们提到的技术，咪咕在这次冬奥直播转播过程中还使用了哪些黑科技？

周效军：我们还使用了8K超高清直播、AR演播室、三维观赛、AI横转竖、AI战术分析智能解读比赛、MSC数智人等等。

AR演播室：“我的眼睛就是尺！”还记得王濛的霸气金句吗？这场“专业与幽默齐飞”的解说首秀背后另有玄机。王濛和黄健翔解说时所在的演播室是可以根据直播内容随时变换场景效果的。我们融合了实景演播室与虚拟演播室的优势，通过影视级实时追踪拍摄技术及后期渲染引擎打造了未来科技感舞台空间。
三维观赛：咪咕首次将5G+XR观赛技术应用到冰雪盛会赛场，利用Inside-Out定位技术、多实例播放技术、多路独立视频同时播放功能，通过 AR眼镜，打造六度自由空间的赛事体验场景。在虚实结合的多赛同看三维直播空间内，拖动虚拟屏幕即可随意切换比赛，屏幕还可进行缩放和远近调节，真正做到“我的地盘我做主”。
MSC数智人：谷爱凌数字分身Meet GU的超写实数智人声是基于新一代个性化语音合成技术实现的。该技术在语音流畅度、真实度、情感度方面深度优化，训练后的个性化音库可获得与原声极为相似的效果。Meet GU现身咪咕演播室与主持人互动，为赛场上的谷爱凌打气助力。
8K超高清：开幕式当晚，咪咕首次通过8K超高清大屏直播大型赛事，直击了开幕式的每一个绝美瞬间。8K视频的清晰度是4K的4倍，1080p的16倍，画面里的人物和布景细节都能看得一清二楚。当时就有不少网友在北京、上海、成都等地的中国移动营业厅和咪咕咖啡店打卡，观看超高清开幕式。
AI横转竖：咪咕自研AI横转竖技术能将海量优质横屏视频，通过镜头检测、精彩场景识别、目标跟踪等完成精彩片段检测，核心区域定位，自动完成高质量精彩竖屏视频的生产。竖屏视频有助于呈现视频细节，更有利于快速传播。在冬奥期间，AI横转竖产出大量精彩竖屏视频，宣传冬奥实时热点，快速满足用户对赛事信息的及时获取需求。
AI战术分析：咪咕携手合作伙伴，在冰壶项目上线“AI战术分析”，依托视觉AI感知、深度学习、三维建模和空间定位等技术，更直观地呈现比赛过程中冰壶的运动轨迹曲线，帮助用户看得清、看得懂，学习冰雪运动知识。

LiveVideoStack：在AI与音视频结合的技术探索中，咪咕还会给观众带来哪些创新？

周效军：咪咕致力于通过内容+科技创新，不断为用户提供更优质的视听服务。本次冬奥我们已经提供了中文解说的实时智能字幕，后续我们也将面向更多国际赛事，增加英文解说实时字幕功能。此外，在视频播放游戏化、360度虚拟环拍定格高光、沉浸式音频提升实况播出互动性等方面，我们也在持续探索。咪咕公司始终秉持开放合作的理念，希望能和业界加强交流，共同进行更多创新技术和场景的研究。

策划：包研、Alex

编辑：Alex

扫描图中二维码或点击阅读原文了解大会更多信息