从音视频技术看AI的机会和挑战

作者 | 包研,LiveVideoStack主编

我关注AI完全是被动的,直到两件事改变了我对AI的看法。第一件发生在2017年5月,AlphaGo以3比0战胜柯洁。我的一个朋友当时在乌镇现场感受了这场人机大战,她向我描述了柯洁被逼到走投无路的无奈与绝望表情。另一件事在2018年初,现场聆听了蒋涛关于AI的分享,其中介绍了在Google内部,AI已经在大部分产品上应用,包括Youtube。由于工作关系,Youtube在AI方面的应用自然引起了我的注意,比如通过AI理解视频内容,自动截取最能表现视频内容的关键帧,可用于生成视频封面。

事实上,从2017年第一届LiveVideoStackCon音视频技术大会开始,AI主题就没有缺席过,但直到2019年,AI在音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现。接下来,我来梳理下AI在多媒体各个场景下的应用。

内容理解

AI内容理解并不限于生成封面图,精彩剪辑,或者只看某个角色的镜头,这在内容推荐、广告平台有帮助。此外,内容理解还能帮助更好的处理视频,比如可以针对不同的视频内容选择不同的Codec,以及相关的编码工具;也可以找到视频中人眼最关注的部分,分配更多的码率,降低不易察觉的画面的码率,在保证用户体验的前提下降低码率。同时,AI可以把竖版的短视频裁剪成适合横屏播放的内容。

此外,AI还能帮助检测视频源片中的瑕疵,比如黑屏,异物遮挡,这可以在后期制作中修剪。同理,AI也可以帮助发现字幕遮挡关键画面信息的情况,从而调整字幕出现的时间或位置。关于内容理解的应用,Netflix走在业界前沿,可以多关注。

图像增强

关于图像增强大家谈的很多,也许你在看一些热门影片的时候已经用到了AI加持的图像增强技术。比如,将SDR转换为HDR视频,视频超分(将720p变成1080p),每秒30帧视频变换为每秒60帧等等。

AI与ABR

ABR即动态码率,其目的是为了解决客户端在不稳定网络下仍能流畅的观看视频,并且最大化的保证画质。ABR算法需要关注客户端的视频缓存,以及当下的最大带宽,从而去预测未来一段时间提供给该客户端的码率。AI的出现可以进一步提升ABR的效果,最著名的要数MIT提出的Pensieve。去年,著名的网络技术学术会议SIGCOMM上,也有二十多篇是关于机器学习的。

语音识别与语音合成

从Siri到小冰,从智能手机到智能音响,语音识别已经无处不在,无需赘述。而语音合成则是让电脑把文本变成语音,比如Google开源的Tacotron已经可以实现99%的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多的通过AI生成。

回声消除

这是一个所有音频设备必须解决的问题,在多麦克风设备上消除回声相对容易。但在一些低端的Android设备上,如果只有一个麦克风就需要利用AI来帮助消除回声,效果非常不错。

声纹——人声识别与音乐识别

声音是可以作为身份验证的,但是风险也同时存在,比如有人拿了你的录音去登录你的银行账号。而DNN可以掌握更多的声音特征,从而降低风险。而在音乐识别方面则没有那么高风险,但也直接关系到用户的体验,各大音乐App都集成了相关的功能。

此外,AI还可以帮助影视策划制作与营销,通过分析剧本类型、导演、明星阵容预测作品的流程程度,从而在后期推广、广告合作方面更加精准。

以上粗浅聊了聊AI在音视频领域的具体应用,仅仅是冰山一角。无论你是否选择从事AI与多媒体领域,学习一些AI的基本知识还是很有必要的,但你如果想大干一番,而不是随便发一些paper,混个offer,来那些掌握海量数据的公司,能让你大显身手的。

在8月23-24日的LiveVideoStackCon 2019北京音视频技术大会上,有许多我非常期待的AI相关的话题,作为大会主编,每一个讲师都是我亲自甄选和沟通,并参考各个专题出品人的建议。

《如何进行动态协议优化》 Akamai 高级工程经理 Darren Ng

《“京享超清”在复杂网络下应用与视频体验保障》 京东云 架构师 张树军

《强化学习下的自适应码流服务》 爱奇艺 资深工程师 王亚楠

《高效视频处理与AI融合架构》 Aupera 创始人兼CEO 廖玉峰

《AI视频增强与编码损伤修复协同处理方案》 西安电子科技大学 硕士生导师 何刚

《实时视频码率优化实战》 好视通 高级架构师 张弦

《AI驱动的音频、视频效果新玩法》 相芯科技 资深图形引擎开发经理 蔡锐涛

《沉浸式音频技术的采集,传输,播放,以及应用场景初探》 时代拓灵 创始人,CEO 孙学京

《深度学习图像算法在内容安全领域的应用》 网易易盾 资深算法专家 李雨珂

《端对端语音识别及其应用》 滴滴出行 首席算法工程师 李先刚

《视频编解码优化以及与AI的结合》 RealNetworks Senior Lead Staff 况超

《声纹识别与防录音重放攻击》 清华-得意音通声纹处理联合实验室 博士生 程星亮

《多模视角下的内容理解算法与应用》 快手 多媒体内容理解部负责人 李岩

《音频指纹技术在流媒体音乐平台的应用》 网易云音乐 音视频实验室负责人 刘华平

《xNN:支付宝App中的实时AI引擎》 蚂蚁金服 高级算法专家 周大江

《深度学习在回声消除中的应用》 大象声科 高级音频算法工程师 闫永杰

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190812A0OA6L00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券