00:00
那呃,其实刚才达总呃不仅仅提到了说我们技术,原来TM的技术原来是怎么严格的,呃也提到了很多的未来我们的发展方向,以及我们T1的一些黑科技的内容啊,那提到黑科技的内容啊,我们就不得不提到一个我们T1的一个比较神秘的一个团队啊,叫天晴实验室,今天也有很多天津实验室的同学来到现场啊,那我们今天呢,也非常荣幸的请到了天晴实验室的负责人啊江涛江博啊,来给我们分享天晴实验室啊,我们目前的这个现状和我们我们的未来啊,那我们掌声欢迎江博好,那接下来的时间我们交给江博,呃,大家好,我是马江,呃很荣幸今天下午能给大家揭秘这个神秘的天津实验室啊,呃在达总后面讲,其实有一点压力,因为达总讲的比较精彩。好,然后我今天从三个方面给大家介绍,首先介绍一下天晴是谁,然后揭秘一下天晴做了什么,以及我们未来打算做什么。呃,在讲天晴之前呢,我们先说一下这个音乐和AI的关系。
01:14
呃,因为一般我去跟大家讲,哎,我是做AI的,我是做算法的,呃,大家一般的感觉就是说你们工资是不是都挺高的。然后第二感觉就是说我们这波人应该比较宅啊,就比如说像大爆炸里的那个Sheldon一样,音乐给人的感觉都是这种忧郁啊,高贵啊,然后跟我们这个做算法的码农好像气质不是很搭配,就像水和油一样,有一个明确的分界面。但是呢,从我的角度来看,我觉得这个AI和音乐更像是咖啡和牛奶像,呃,通过不同的组合方式啊,比如说我们有cappuccino,有LA,有LA等等,会给大家呈现不同的味道。天琴呢,就是上是把音乐和AI完美结合的一个咖啡师,然后给大家呈现出音乐不同的味道和感受。
02:07
呃,天琴也是一位历史悠久的年轻人,对,说他的这个历史悠久,是因为其实有很多同事,像赵老师,像lank,其实在t me成立的时候就已经在这了,一直跟随着t me来成长,但说的是年轻人是因为实际在8月23日才正式发文更名为天津实验室,那么我们的职责是负责打造这个听歌识曲、TTS内容理解等,呃,业内领先的多媒体AI技术,为用户提供全方位的优质的音乐视听体验,然后注注意这两点呢,也是我们的天琴的使命,好,然后呢,天琴的寓意就是神话中挂于天穹的提天琴,让用户体验这个音乐娱乐的美好。好,那么下面我们介绍一下天津这件室做了什么?呃,这是我们整个的一个实验架构啊,其实我们看到我们做了很多,呃,比如说我们有这个M,我们有视频的这个场景检测,然后皮肤美白生成合成等等,那上面呢,我们又有很多功能,我们也服务了很多业务线,录畅推荐,直播,商业化等等等等,但是呢,大家如果这个参会技术会啊比较多的话,会发现这个图好像啊似曾相识,在哪都看到类似的架构。
03:27
所以今天我们换个角度,我们从用户体验的角度来介绍天津实验室技术,我们从一个用户去使用K歌,使用Q音,然后观看直播的时候,能逐步的去揭幕我们在哪些场景下用了我们的哪些技术。好,呃,当我们打开这个QQ音乐的这个界面的时候,我们会看到很多推荐的这个歌曲,那其实这里边就应用到了我们的mmr的技术,呃,M其实是一个大的方向啦,Music information retri,音乐信息检索,其实这个中文名称也不是特别特别好啊,不足以揭示这个技术的全面性,呃,它涵盖了很多内容,就比如说我们常见的,比如说节奏,呃,节拍啊,Key啊,Tonic呀,然后音乐的这种结构啊,那比如说我们,呃,听歌的时候,或者唱歌的时候,有时候可能会直接跳过开头,直接就开始唱副歌,那么音乐的结构,比如说ABBAB,还是纯A的结构。
04:30
然后比如说相似的音乐,然后这些呢,相似音乐有些是可以直接作为一个触发源在放到推荐系统里边,也可以作为那个一个embedding或者特征进入推荐系统。呃,还有一些音乐的标签,标签这部分大家可能会比较熟悉了,比如说他的流派啊,流行啊,摇滚啊,Jazz呀,然后那个用了哪些乐器啊,呃,歌手的音色风格呀等等,还有一个这个恐怖音乐是这个其实是很小众,但是对用户体验还是很重要的一个一一点就大家比如说在听歌,尤其在比如在地铁上,你连控制着这个,这个都不很方便,但你听着歌,突然歌单里出现了一个很恐怖的音乐,你没法关,这就是很尴尬的场景,对,所以说在这方面我们做的比较细致。
05:17
那么挑其中重点的这个MPE,就是音乐偏好聚类music perform inbing来表示来讲一下啊,这个其实刚才达总也说过,那么我们把其中比较宏观的介绍,现在我们从技术点上给大家讲一讲。呃,其实音乐是一个比较复杂的一个情感的载体,那么光通过一个比如说呃,是流行的,是摇滚的,是讲述爱情的等等,不足以描述这个音乐所表达的信息和情感,这时候呢,我们就需要用用户,用户其实他是能够有区分性的,他能够知道这两首歌之间有什么样的关系,那以是以自己歌单的形式来体现,所以说我们就挖掘了这种歌曲的潜在的关系,然后在高维空间中能表示这些歌曲之间的相似性。
06:06
他能干什么呢?就是解决歌曲的冷启动,因为我们每天都有这种新歌出现,那么把这些新歌分发给谁?那么我们就从可以从历史库里去找之前哪些用户哎,对这些首歌感感兴趣,呃,这个图呢,其实就是我们的,呃,一个例子,那比如说我们放了bad bad guy这首歌啊。然后呃的,然后跟他相近的这些歌,那么就是我们觉得高维空间中跟他相似的,既有是自己的歌,也有一些其他的歌曲。好。呃,当我们点击一首歌的时候,那么其实我们会看到两种界面,一种是这种静态的,另外一种就是这种。嗯。啊,动态化的。这种鲜活的视频背景上线之后呢,至少我每次看到一一首歌的时候,我会把这个视频看完,因为这个视频对这跟这首歌的情景还是蛮匹配的,然后这功能上线之后呢,我们相关的歌曲的完播率也有一个比较明显的拉升。
07:13
那么这个视频怎么制作的呢?这是整个视频这种智能剪辑的一个流程,那么我们先来了一个长视频,之后,那么我们会把它分成小的片段,然后我们对每个片段在逐帧的去检测,比如说它有没有一些logo啊,有一些字幕啊,然后我们再找到这个视频中的一些焦点,然后把这个焦点随着这个人物的移动,始终让它保持在视频的中间的位置,然后最后切出一个有效的片段。这个呢讲起来比较枯燥,我们直接放一个例子来看啊。大家可以看到啊这个。
08:00
我们在生成的时候,比如这个框啊,可能看的不是特别清楚,其实是一个歌词字幕右上角这框呢,这个框其实标注的是logo,然后呢,我们这个框会跟着这个周董的这个。画面来回的呃,移动,始终让它保持在这个画面中心的位置,然后呢,呃,把它从完整的这个视频里切出来之后,那么这个视觉效果那也能够完整的表达一个故事,对。是吧,我们这个视觉效果周董也是还是不错的。呃,当我们这个在Q音听歌听腻的时候呢,我们也可以去听听小说,追追网文,当然这里边儿也有些很多人工去讲的小说,但是比如说我们追某个小门的时候,他可能比较快,当天我开车的时候就想听到,这时候呢,可以就用到我们的这个语音情感语音合成技术。呃,这是情感语音合成的一个基本框架了啊,然后它主要分成三部分,比如说前端,它这个前端主要是我们的文本的呃分词啊,然后呃韵律,韵律控制啊等等,然后是我们的这个声学模型跟我们解码器,然后我们的声学模型呢,其实是输出的是呃,比如说我们的梅尔普或者是呃功率谱等等。呃现在主流的方法有text transformer跟fast speed3个方向,然后我们现在用的呢,其实类似于一个text的框架,然后这里边呢,其实我们看到我们在训练的时候,我们从文本里拿到了这个音频的情感,比如说是呃,高兴的,愤怒的还是平静的等等,然后在我们预测的时候也会把这个标签打进去,这样话以保证我们生成的这个呃语音,它其实是带情感的。
09:47
然后升码器这块呢,其实呃,早期的话,比如说是word升码器也可以,但是最近几年的话,随着N的流行的,比如说干的VNE的VRN的等等,呃,这种NN的声码器能够更自然的呃表达人类的语音情感,以及能够在高频信息保持人类发生的更多的细节。
10:08
好,下面呢,这是也是我们线上用的这个hi干的这个框架。好。呃,讲完了这个语音合成,那么刚才达总也说了,当我们这个听歌的时候,那么可能比如说我们在广播上,电视上会听到一些这个我们呃很感兴趣,但是又不知道名字的歌曲。那这时候就用用到我们听歌识曲技术,这项技术呢,其实有。小二十年历史了,对,呃。怎么说呢,跟大家讲一下这个技术的驾驶吧,呃,闪赞这个这个技术本身是闪赞这家公司的CEO,然后在零三年左右的一篇论文里提出来的,这家公司呢,虽然起起落落,最后在呃,最惨淡的时候用4亿美金被苹果给收了,所以说现在大家听到的也是一个价值4亿美金的技术。
11:02
对,他呢用了一个很简单粗暴,但是非常有效的方式,实现了这个音乐的检索,其实这个呢,就是我们的鱼图,那鱼谱图中这些点,那就是一个能量的极值点,然后他把临近的极值点连在一起之后,那么就形成了类似于人手的一个指纹,所以说我们也叫它音频指纹技术。然后它呢,呃,检索过程其实也很简单,那比如说先进行一次正牌检索,再进行一次倒牌检索,那其实跟搜索引擎的技术很相似,所以说它非常简单的有效,但呃,他对这种比如说加性噪声,那比如说我们通过外放这边有很多背景噪声的情况下,它的检索性能还是很好,但是它的缺陷是什么呢?他对,比如说变速变调,或者比如说我们拿钢琴吉他重新再弹一遍这首歌,那这种检索能力是无效的,所以说我们也做了下一代的听歌取技术。好,呃,A good in beding is all your need,其实这是学术圈的一个梗啊,对,其实在大概一七年的时候,呃,Google团队在nips发了一篇paper attention need那篇文章里面呢,他他直接用attention,而没有用CN或者R网络,就实现了一个机器翻译,然后从大概那个时候开始,这个某某某it need就开始在这个学术圈论文里流行了对论一梗呢,就是inbedding,其实呃现呃现在这个阶段也是all inbding,无论是图像、文本、音频,包括我们推荐的用户行为等等,那么我们inbding的一切。
12:38
呃,我们将音频片段啊表小的片段表示成了inbing序列,然后把这个inbing序列进行检索,呃,目前从公开的结果看呢,我们这个反向识别的效果已经达达到了业内领先的水平。呃,再一个就是大家可以看到我们中间用的这个impression,呃,NEVR这个架构,其实这块的话也是图像的架构,现在也是一个混页的状态,无论是搞语音的,搞音频的,文本的,其实大家的这个门槛越来越低,其实处于一个混页的状态。
13:14
然后在这个里边呢,其实我们既呃用的是triplo,然后既放了呢,比如说相近的一些呃音频片段也放了差异比较大的,让这个模型既能学到这个比较好的表示能力,又具备较好的区分力。好,呃,当刚才说介绍了听歌识曲,那当我们头脑中有一段旋律很经典的,那么在出现的时候,我们想知道是什么,那这时候就介绍了出现了这个哼畅识别技术,然后呢,刚才呃达总也介绍了,其实我们哼唱识别目前呃王伟还我们自测啊,已经超越了国内外的所有竞品。然后尤其在今年我们的各方指标也有一个大的提升,对,也而且也借助了这个,呃,微信的摇一摇,对。
14:00
而后整个这个哼唱识别呢,技术也有20多年,二三十年的历史了,这个技术呢,本身并不复杂,但是它需要对每个技术点扣的非常的细致,对那他的整个流程我们可以认为分为三个阶段,首先就是把我们人的这个声音转换成类似于mid的这种谱,第二个呢,就是把我们曲库里的所有谱进行建库。整个检索过程中呢,可以分成三个步骤,就是模糊匹配,精确匹配跟重排,其实呃,精确匹配基本上也就够了,但是呢,精确匹配的计算量比较大,所以说我们会有一个前置的模糊匹配,先要过滤到呃,99%最不像的,然后最后留小部分的歌曲进行精细匹配。同时对结果进行一遍重排,因为可能会同时命中多个片段。呃,各次时间戳,呃这是在我们,呃刚才介绍完Q音了,那么我们现在介绍在QQ场景下我们能用得到的技术,呃,这个呢是我们这个场景下单呃面对的一个特殊的技术,因为一般的语音识别,大家关注的是识别的正确率。
15:09
但是在我们这个场景下,除了我们关心跟的正确率之外,我们还关心这个字什么时候开始,什么时间结束,因为大家在K歌的时候,这个字。左侧这个字是逐个的去量的,他来提到提示用户唱的一个目的,如果这个不对,那么用户就会投诉我们。所以说这是我们在用户体验方面做了很多极其细致的工作。好,这是我们这个歌词时间戳的一个基本框架,那么其实我们呃做了三套系统,那么既有纯中文的,纯英文的,也有中英文混合的一个,那么当歌词来的时候,我们会简单基于歌词的文本做一个呃识别,看看它是比如说什么样的场景,这样的话分配到不同的模型上,因为每个模型呢,它有性能上还有略微的差异。呃,这一个歌词时间,除了技术,我们也为已经为集团省了几千万。
16:06
好,呃,在K歌的时候,我们还会遇到一个场景,比如说我们唱两句,然后我们不想唱了,这个时候呢,呃,会遇到一个比较尴尬的情况,如果我们没有这个回声消除技术,就这个打分器乱跳,这时候用户比较较的用户也会来投诉说你这个分不准呐,我没有唱,你给我打分了,对,所以说对于这个细致的点呢,我们。做了这个回声消除技术,然后呃,比如说左边这个例子啊,左边这个例子就是大家呃,没用SEC之前,然后这个打分乱跳的场景,右边这个呢,就是用了之后,那么这打分是几乎不再跳了,只要达到这个零分,用户也是一个符合心理预期的一个状态,呃,之前的这个a ec其实是整个微VOIP通讯里边比较经典的一个模块,但是呢,它主要针对的是人生的部分,比如说16K以下,但是音乐比较特殊,那么它有更高的频段,所以说我们做这个SEC技术是对这个全频段的音乐进行处理。
17:07
同时也对这个呃,手机播放里边音乐里边左右双声道这种场景,呃,以及这个安卓手机这种不可预知的延迟,都做了一些特殊的处理。呃,再看一个,比如说我们在呃,还有一个呃,K歌场景下,其实我们50%的场景用户是外放音乐在唱歌的。对这个呃,尤其很多中老年啊,他不太习惯用耳机,那这个时候呢,我们就涉及到如何给他打准的问题,那这个在这个场景下也是能用到的。呃,我们可以看到,在我们没有用这个C之前啊,那么比如说残团这些模模糊糊的部分,就是我们材料的音乐,那么这个其实对我们打分的准确性是有比较大的影响的。当我们用了AC之后,那么基本上呃音乐的部分消除了这些明显的这种斜波成分,那么就是呃人生。
18:06
这个差异大家还是比较明显能看到的。好,那么当我们唱完一首歌的时候,那么我们需要给用户一个评价,那其实用户对这个评价是很敏感的,那么呃,大家可以看到打从3S2SSES,那么用户的发布率其实是有一个明显的下降趋势的,但是用户已经看了这个传统打分这么多年了,那么需要一些新的方式来夸奖用户,或者发现用户在哪些方面有歌唱的潜质,那比如说原来他还是A,那么如果我们告诉他你在这个技巧这唱的比较好,或者你在节奏这唱的比较好,那么用户可能就多了一个理由去发这个作品,所以说我们就做这个多维度打分。那么这多维度呢,是从以下五个维度,首先音准还是传统这种打分,但是呢,我们做的更精细,那么节奏的话,那么我们。
19:01
对每首歌,那么比如说你看你的字在哪个时间出现,那么实现了一个类似语音识别的一个技术,那么在技巧这那比说我们的颤音,滑音,转音等等装饰音这些识别,然后气息的话,其实气息是对呃音乐情感表达很很重要的一个因素。然后以及这个情感。呃,这块的话实际上是对这个我们觉得是对乐理啊,呃信号处理呀,然后AI最好结合的一个例子,呃这个功能上线之后呢,这个页面的转化率有了一个大幅的提升,所以说我们这个所有技术在呃K歌啊,在Q音啊等等技术点都是有这个,呃对用户有帮助,然后有业务价值的。呃,除了在陆畅之外,那么他还用到了像K歌王者,像线下大赛,像哈尔歌房等多个场景,其实像我们这个算法的研发同学小亮自己没事也特别喜欢在K歌王者里打两局,对。
20:03
呃,再说一下,其实我们这个作为打分,其实在B站也已经破圈了,这个很有意思的一个故事,就是我们自己在做这个技术的时候呢,呃,我们也在想,反正五维嘛,跟金木水火土五行有没有关系,但是呢,我们这个up主帮我们解答这问题,这个是有关系的,对,然后呢,呃,他不告诉我们呢,我们也不知道,原来我们默默做了一件这么神奇的事情,嗯,对。呃,而且他还评价呢,我们这个是国内最好的这个,呃,歌唱评价系统,我们能说什么,我们只能说用户永远是对的是吧。好,呃,还有很多用户啊,就是其实跟我一样,然后存在一个音高音准方面的问题。啊,这时候呢,我们就做了一个自动混音,大家应该也听过这个网上这个百万修音师这么一个职业,对吧?呃,我们呢,就把这个百万修音师做成一个自动化了,让用户能够免费的体验到。
21:03
然后这块呢,是我们这个技术的一个宣传片,黑色的子弹火热上映中,无所不能的名侦探其实也有不擅长的是,接下来让我们一起围观柯南唱歌的车祸现场吧。全民K歌拥有着强大的智能修音功能,支持数千歌曲的一键修音,能根据用户声音智能矫正并优化歌曲节奏和音准,堪称个人专属AI调音师。柯南,我能为你做的只有这么多了,好。呃,这是智能修音的一个基本流程,虽然现在修音那有很多,有几家公司在做吧,对,但是其实这个基本流程大家是大同小异的,就是当用户输入声音之后,那么我们都是获得用户唱的这个字的每个时间,然后我们在跟一个标准模板去比,看用户这个每个字的发音的时长,音高对不对,如果不对,那么把它修到一个正确的位置,然后再把修好之后的结果拼在一起,同时再做一个后处理,对整体的音量啊,然后做一个调节。
22:32
呃,当然这里边比较细致的点就是说这个流程非常的长,涉及的技术点非常多,那么修音结果其实是由每个技术的乘积造成的,像语音识别,像变缩变调等等,那么有的时候呢,这种技术特别链条特别长的东西,就比较考验人。然后我们在这里面只能说每个点每个点去逐步的打磨,来达造一个最好的用户体验,然后就比如说像我我code的这种,那么我们现在也在尝试,比如说N的升码器来给大家来给用户达到一更好的效果,因为传统的word可能它也有一些局限性,像变速变调,那么其实我们将市场上所有的变速变色的方法几乎都尝试过了,到最后挑一些性价比最高的,然后放在呈现给我们用户。
23:21
呃,再剧透一点,就是我们也在尝试这个端到端的这个K歌秀音,然后呃,这篇论文呢,我们也投到了今年的ICO,那I是那个不需要双盲,所以说我们也可以在这简论透露一下,然后这呢也讲一些我们呃把这个投到I之后呢,呃,我们也很怎么沾沾自喜或者骄傲一下,因为我们觉得在这个小众的领域上,我们做了一些比较有深度又能够帮助用户的技术,对,但是呢,这个论文发了一周之后,我们发现呃,台湾的杨艺轩老师,他也是在mmr领域比较有名的老师,也发了一篇跟我们这个思路上比较接近,但是不同路线的一些论文,然后又过了一周,我们发现阿dobe也发了一篇。
24:10
然后哎呀,怎么说呢,这是一个最好的年代,也是一个最糟糕的年代,就是在这个很小众的一个领域上,然后算法同学们已经这么卷了。对,然后但是对于用户而言呢,我们觉得这个比较好的年代,因为有这么多算法的同学在这么一个小众的领域去研究,然后把最好的结果呈现给用户,那么我们除了自己的研究之外,我们也会同样竞比,呃,去对比有没有更好的方法,如果有的话,那么我们也会快速的实现,然后把它服务于我们的用户。好,呃,那刚才说我们已经听呃听在Q音,听了音乐,然后K了歌,听了小说等等,那么我们还可以再看会直播或者看个短视频,那么在看短视频的时候呢,其实呃。
25:00
在短视频推荐里面,我们聚合了很多技术,像音频方面,我们做了这个无参考的可唱评价,音色识别低质识那个音频低质视频这呢,我们做了视频质量低俗识别,人物识别的。那我们挑重点的给大家讲讲。呃,基基于度量学习的这个无参考格唱评价,对,呃,首先先说一下为什么要做这个事情吧。呃,国内做无参考格商评价可能我算是比较早的,大概是三年前开始的做这个故事的,做这个技术的契机是因为,呃,大概在三年前吧,我们在挑选这个优质歌曲的时候,在有一天晚上,大概在11点多钟的时候,然后我突然跳到这个视频。这个视频的歌让我听完之后整个寒毛炸立对这是什么?就类似于大家晚上看恐怖片的感觉,呃,是一个蒙古的一个大哥在唱一个蒙古歌,虽然我确实听不懂啊,但是呢,他那个歌的感染力呢,就对我很震撼,然后第二天呢,我们又找了一个音乐学院的同学跟我们讲一遍,说这个人他唱歌的这个卢腔共鸣的漂移技术非常的高超,他作为一个幺二的一个科班生唱歌唱的他做不到这个水平。
26:20
然后呢,我们相信其实世界上有很多这种优秀的歌是那个音乐家,他可能并不是本质是唱歌的,他可能就是一个放牧的,或者一个修自行车的等等,但是呢,我们要把这些作品挖掘出来,然后给我们的用户把这些人也挖掘出来,这就是我们做这些技术价值。呃,在这个方面呢,我们做的这个无度量学习的那个基于度量学习的歌唱评价,也是我们找一些唱歌好的跟唱歌不好的。训练了一个分类模型之后,那么新来一个作品,那么我们就可以告诉大家,就比如给我们一些小标记的,比如说这个,呃,我虽然听不懂蒙古歌,那你给我几个例子,那再来一个歌曲的时候,我们能告诉你他是好还是不好,这篇论文呢,我们也中了那个今年的me。
27:10
呃。我们还构建了一个面向这个UC场景的这个音色识别,其实大家对音色都是有偏好的,就比如说这个萝莉音呐,大妈音呐,输音呐等等,然后像比如说我们的K歌平台里边大爷大妈比较多,对,但是可能受众的话,有些时候还是喜欢听一些年轻的音色,所以说我们就训练了一个。音色识别的模型,呃,我们把整个音色的高维的这个in bedding投影的二倍,大家这可以看到啊,这个不同的颜色点代表一类音色,这个区分度还是比较大的,这个呢,在这个同城这种推荐场景下,对七日留存的指标有一个非常非常明显的提升。大家做相关的可以知道,就是想提七日流的话还是很难的。
28:01
呃,除此之外呢,其实我们平台像K歌这还是有很多中老年用户他们,呃除在我们平台上有很多戏曲的作品,当然还咱们也回到一下念经啊。然后在戏曲这呢,其实我们也做了一个分类,呃,这里边有很有意思的一个事情跟大家说一下啊。像这个空间里边,每一个颜色代表一个剧种,那么这里边有些剧种之间他们是有交融的,比如像京剧,它几乎跟所有点都有个交融。有些剧种之间,那就比如说像。啊,这些点,那么它跟其他区域几乎没有交融,那这说明什么呢?说明这个剧种在演化过程中,它是完全独立的,它没有从其他聚众之间借鉴过东西,对,但这种小众的东西呢,我们觉得因为我们平台有这么多优厚的资源,所以说我们希望把这些呃,吸取的数据积攒起来,那么。将来为我们这个祖国的这个这戏剧这个事业也作为一个遗产保留下来,因为这个其实有一点要说的,就是我们目前京剧方向最大的这个数据集,其实是由公荣博士拿的这个西班牙的一个文物保护的基金回国内录制的,对,但是我们国内自己本身对京剧这个数据标呃数据非常的少,所以说我们也是希望类似于这样的模型能够把这些数据先积攒起来。
29:28
好,呃,刚才说看完视频了,那我们再看看直播,直播这的话呢,我们主要是三项技术,优质动态视频,高光片段跟视频质量提升,这块的话呢,我觉得我们这个主要是做两件事情,就是开源和节流,所以开源的目的是说让用户点到这个直播里边来,然后节流的目的是说用户一旦点进来之后,那我们就不让他走,让他在这多看一下。好,我们整个这个呃直播动态视频就是嗯流程是这样的,就是也是跟刚才呃动态视频那个呃视频剪辑差不多,那我们一个直播流来了,那么我们会把它切成小片段,每个小片段那么我们会去把它打成各样的分,比如说颜值啊,跳舞啊,然后男女啊,性别呀,动作呀等等,然后再经过一些呃一系列的决策,最后筛选出最好的。
30:26
给大家放两个例子吧。相信我的爱,你就是我要找的那个小男孩跌到离别的滋味不是放完这两个例子,我觉得为什么把这个作为封面,我也不需要解释太多了,是吧?呃,还有一个就是这个异步高光片段,因为呃是我们这个直播流放完之后啊,我们会从直播里边精选出来一些这个主播,呃,位置也比较好,唱歌也比较好的作品,把它做成短视频,然后呢,在这个主播比如不开播的时候,那我们可以把这个视频发出去,那么比如说让观众更多的关注他,或者在开播的时候也可以,那么因为开播的时候,我们的整个视频的呃,主播动态会有变化,或在开播,那么我们也吸引用户点进来,因为这个视频优秀,那么我们来,呃让他来进这个直播间,然后现在呢,其实我们也在做这个一步式的话,这个是要求整个直播结束之后,我们统一去做,那么我们最新做的是实时的,就相当于可能这个用户,呃,这个主播,这歌只唱了一半,我们短视频已经做完,然已经发出去了。
31:45
然后这是我们整个这个异步高温的一个流程吧,这块的话其实刚才说了,除了图像的方面,那么我们对歌声的评价也放进去了,就是除了他长得好看,只要动作标准,那么还是他歌唱的好,这块我们也放个例子听一下。今天冬天的离开,我在某年某月醒过来,我想我等这块就不放完了,对,其实这块的话也再说一点,就其实从主这个直播里面切出来的片段,有的时候质量的话会非常的高,因为我确实在这个直播里边切来的片段里见过,呃,比原唱唱的好的。
32:28
对。好,全量的质量提升,刚才说了,我们开讲完开源了,那下面就讲节流,节流的目的是说用户一旦进来了,那怎么不让他走,那这块呢,我们之前做的这个在主播侧就是美白去噪,就是让主播变得更漂亮,更好看。然后在观众侧,那我们这是做了HDR超分超帧,那么就是让呃用户在看的时候视频更流畅,更清晰,下面我们要做的是什么?窄德高清和这个融合美学的这种质量评价,窄德高清的目的是说用户同样看这些直播的时候,那质量不变,那如何带宽更小,更流畅,花更少的钱,然后质量评,呃美学质量评价就是之前的话,我们更多的是从一个客观质量评客观指标上来来说这个好不好,那下面我们将是引入一些美学信息。
33:24
好呃,在前端这我们做了这个美那个美白,那首先需要把这个主播的人像先分割出来,那比如说只能对他的脸呐,皮肤啊做一个美白,那衣服这些我们还是不动的,那么双边去噪的话,我们只是也也是去掉一些噪点,用前后这个圈的相关信息。然后在观众测的话,那么我们超分,那比如说原来可能有些4480P的,我们把它放到720P720P的,我们把变成1080P。然后超帧的话,可能原来我们看因为帧速越大,呃,我们的这个观看体验会越好,但是帧速越大,我们要花的这个带宽成本也越高,用户也容易卡顿,这时候我们就在呃客户端做了一些插帧的操作。
34:10
对,这里边我们要说一下,其实我们有很多技术最后是反复迭代,像比如说刚才说这些超分超真,其实我们反反复做了有一年多,呃,将几年吧,对,然后这里面呢,用户其实是不会关心那么多细节的,他不会说,诶,我这个变流畅了,主播变美白了,然后在我这个800多块钱的机器上居然也能跑啊,还不发热棒棒的是吧?用户还会这么说的,但是用户会拿脚投票,就如果我们这个清晰度好了,主播变漂亮了,他会看的直播更长,而我们的收入跟这个观看的直播时长是正相关的。对,然后再说一点就是说,呃,看我们的洪教授,这是我们负责这个算法研帮的同学,为了我们这个算法已经折腾的没有头发了,对,所以说后面的话呢,我们如果有海克son的项目的话,我们决定为自己努努力,不做美白了,做一个这个头发,让长头发的一个功能。
35:11
好,呃,那刚才介绍的这些技术是谁做的呢?那么我现在介绍一下天津实验室,我们这里汇聚了30多位资深的,然后音视音饰品的研发人员,然后来自于这个清华呀,复旦哈工大,香港理工,新加坡国立,呃,澳大利亚昆士兰大学等国内外顶尖顶尖的高校科研机构,我们拥有这个将近400个专利,然后在这个相关顶会像I卡特speech啊。Me啊,还有这个串上我们都有这个多篇论文成果出来,对,然后这块呢,也差不多一个小故事吧,就是我们这个。这些成员其实对我们这个方向其实还是很热爱的,就是我们这个里边有一位同学啊。呃,他也是刚刚入职,就是他入职中间有个小插曲是说,呃我们原来用我们,呃他原来是做中台的,做技术中算法中台,然后可能我也做了很多年算法中台啊,能知道很多技术这个落地大家很难,然后呢会没有一个成就感,而我们这呢,很多技术落地会很方很方便,而且比较好,这个技术氛围他就把它吸引来了,然后整个offer都谈完了,然后马上就要入职了。
36:22
呃,发现一个什么事情呢,就是这个深圳的这个彩虹计划取消了,因为我们原我们原来的这个呃,孔雀计划,孔雀计划对,就是我们原来给的薪资包里边算了这么一个部分,因为深圳说四年呃120万,然后有这么一个人才补贴,结果正好在这个当口的时候呢,这个政策取消了,后来呢,我们就跟HR的同事一起啊,然后跟这个同学呃聊了很久,最后终于用我们这块的良好的一个环境,然后以及这个技术氛围,把这个同学留下来了。对,然后我们也相信这个同学决定是正确的是吧。
37:04
好,呃,下面讲一讲我们未来做什么?重新再看一下我们的使命吧,我们是负责打造业内领先的多媒体AI技术,为用户提供全方位的呃技术体验,其实我们后面要做的事情很多啊,我们先。举三个例子吧,比如说跳三个重点的讲,首先这个专业级的歌唱评价,然后神经网络编码器跟这个AI中作曲啊,要再说一遍,像AI自动作曲这块呢,比如说在呃明天有一个创意公司,就是跟我们一直合作,像灵动音,对,然后呢,在像TTS,像语音识别,在一会会有这个新理工大学的谢磊老师,然后给我们讲解一下,同时我们在呃合成啊,在识别方面也跟各大高校得到了很多帮助。好,专业级的课上评价,其实我们之前最早最早就像我们K歌里这个SABCD这种打分,那就是用的用户这个音高,音高的评价就比较单一,后面我们刚才介绍了我们这的这个多维度评价,那么从单一的维度扩展到了这个音准、节奏、气息等等,然后后面我们又做了这个无参考的评价。
38:18
这个呃,学习这个专家对于歌声的优劣程度,然后脱离了原始这种模板的束缚,就是呃想评价,比如说我听不懂的,然后这些歌也也可以,然后后面的话,我们将进入一个更高层次,就是我们将进行专业级的歌唱评价,这是补充这歌唱高层的这个乐理的信息,然后同时就像这个中国好声音似的,就是每个评委,就比如说那英啊,或者是周杰伦呢,他有自己的这种评价标准,那我们将把这个评委的评价标准学习出来。那学完之后我们可以干什么吗?就比如说寻找下一个帕落地,呃,这块看看我们的C3之王,这是他这个迂谱图啊,这个是我比较喜欢的一个,呃,通过这个科学方法讲乐理的一个博主的一个一个一个截图,呃,要说明一点啊,如如果我们的歌声合成做成这样的图,那么大概率它是不好听的。
39:14
因为它会很很大的机械感,因为比如说它这个斜波太清晰了,就是几乎就跟发生正弦波发生器一样。已经不像人了,已经像一个机器的感觉。但是。帕利唱的时候我们觉得还是很自然的,但像这种就是说呃,这么高level的一个评价,那也是后面我们评价的标准。我们需要学习的一个方式吧。但是学完之后真真能找帕瓦罗蒂还是挺难的,对,那我们决定去找一个单依纯,这个人是谁呢?这个是中国好声音二零年的总冠军,这个呃,歌手,在K全民K歌上其实早期发表了很多很多作品。
40:07
我们可以听一下。说话的方式简单点的。好,后面就不听完了,呃,但是确实很好听,那么这个用户其实在K歌平台已经待了很久,而且我们还有很多这个音乐人,那么如何从这些素人歌手和音乐人里找到这么好的歌手,那么这就是我们专业级评价落地应用的场景。好,呃,神经网络编码器,这是一个很好玩的事情啊。呃,在今年二月份,然后Google公布了这个,对,也叫lara,一个AI的呃,Speech的扣,然后紧接着又过了半年八月份,又发布了一个,呃,语音就像音频的一个AI编码器t stream。
41:02
呃,首先要说一点就是呃,我其实做了VIIP这个方向做了一段时间,然后那个时候我们能看到整个编码器的,呃,发展吧,从早期的比如说PC maddpc g点726 G点721,点729 GSM,然后比如说MPA two lawyer three,就是MP3ACC advance audio等等,以及后来我们看到的混合编码器SK op SK op的话会给大家一点点,呃。Happy surprise吧,但是这个surprise还是大家可接受的一个范围内。但是Le这个东西出来之后,我们知道这个整个N编码器的这个发展已经进入N的时代了,因为之前大家可能还是一个纸上谈兵的状态,就讨论说这是一种可能,但是Google已经把它纳入了web r TC里面,我们知道它是能用的了。然后Le瑞的核心其实是微ne,它其实是语音合成领域,我们刚才介绍的我的一个方式,然后它能把码率打到多宽呢?3KBBS。
42:08
这已经是一个很极限的一个状态了。Somestre。桑,Stream的话,其实也是一个纯N的编码器,虽然这是它的结果啊,它目前离高质量编码器还有一段距离,但是我们相信用不了多久,这块目标是能够攻下来的,它这种N编码器有个什么样的特点呢?在传统方法性,我们把压缩和增强基本上是两个独立的模块,但是在这个框架下,我们不需要拆分一个部分就可以完成了。我们相信,呃,除了音频之外,视频的N编码器不久也会出现。好,最后讲一讲这个AI自动作曲吧,好,这是我最近看的一个比较小众的一个漫画吧,就卡罗尔星期二,其实这是幻想了一个未来的世界,呃,如何整个音乐都是由这个AI生成的99%,那么这些人如何通过自创的音乐来表达一个自由的事情?
43:08
呃,但是我相信他说的这个99%,这个事情是可以实现的。后面我们会看到。好好介绍一下这个安波,后边这个是他说的这个,呃,每个人都能出名15分钟这个事情大家可能不知道,但他另一个预言就是说在未来世界里,呃,一个人出名只需要15分钟,那这个事情已经被各大短视频平台证明了。对,在今年这个脱口秀大会第四季里边,其实李诞也一直在传输一个理念,就是说每个人都可以这个说五分钟脱口秀。其实我一直觉得李诞是学他的,然后后面这个,那就是我说的了,就是每个人都能用歌来记录生活,也能通过歌声被记录,对。然后我后面来证明一下为什么说这两句话。呃,大概在去年的十月份吧,我走进这个录音棚,然后录了一首VI做的歌曲。
44:05
这个主要目的什么呢?其实就是,呃,其实我每年会给我我我我我老婆送一个礼物,但是呢,大家也知道每年这个新的iPhone其实挺贵的,所以说呢,我后来决定算送点有创意的吧,然后就用了几年时间做了一套应该自取的东西。然后在去年这个东西终于实现了,然后做这首歌呢,我们其实是从几十个旋律或者几十歌词里选了一首,然后呢,又人工修改了百分之一二十做出来的。反正也说一插一下啊,不谈这个成功率,跟人工修改成分的作曲都是耍流氓对。好,那我们先听一下。
45:17
你是记得我为你唱这首歌好,时间关系我们也不把它放完了啊。好,那么下面说说这个如何人被能通过歌声被记住。这个呢?Coco这个电影我觉得大家可能可能也看过,就是我带着我女儿也看过几遍,我觉得这是一个关于死亡教育非常好的电影啊,然后coco就是这个电那个视频里的老奶奶。对,然后呢,这个歌呢,就是他的父亲来做的,那么通过歌声唤醒这老奶记之后,那么他的这个,呃,这个小小小小孩的这个曾祖被记住的一个故事,呃,这周末其实我在呃北京参加了一个会啊,人工智能跟音乐方面的,然后一个音乐治疗方面的老师跟我们讲了一个一个一个case,很有趣,呃他说是这样的,有很多人的这个音乐歌唱跟语音,这个是分左右半导的,呃有些呃脑梗,他没法说话的人,他其实可以唱歌,他们就有几个case,人不能说话之后,通过歌声来引导,然后让用户让他唱歌来表达他想的内容,这是很神奇很神奇的一个事情,所以说我相信这个歌声是很神奇的,他能够比语言表达更多的信息,能不能更容易被人记住。
46:48
好,那么最后我们再review一遍,那么我们天琴是谁?就像我们说的,天琴是将这个音乐与AI完美融合的咖啡师,那么做了什么呢?我们就是将这种多项的黑科技融到了产品的方方面面,为用户服务。那么未来我们做什么?就是将业内领先的这种多媒体AI技术用于产品,为用户提供这种极致的体验。
47:16
啊,最后的最后再放一个彩蛋。这是我们的logo啊。啊,看来这放不出来了,后边再放一下,就是我们这块做了什么,呃,我们做了一首曲子,然后把我们这个logo画了出来,好。好,最后这个是我们这个天晴的这个公众号和小程序,我们会定期放一些呃基础性文章,以及我们黑科技的呃体验,然后在这上面。啊。
48:04
好,欢迎大家呃扫码关注我们的这个天津实验室啊,天津实验室确实在我们的背后做了特别多的内容哈,现在也有很多的成果落地到了我们T1各个的产品里面啊,刚才也没有想到哈,我们说天津实验室做了很多的内容,让我们音乐让这个世界变得更美好啊,没有想到我们江博也把这个音乐运用到了他的这个家庭生活里面啊,让他的家庭生活更加和睦啊啊这是也也是出乎意料的啊,那接下来呢,我们同样开放两个问题给到现场的同学,我们向同学呃举手提问的,我们可以获得精美的礼品啊来啊,我们有一些什么样的问题呢?啊,来这位同学。感谢江博士的分享,然后我请教一个问题吧,就是我们在音乐或者说音频的识别中,会检索中那个伴奏其实对我们的影响比较大,那是不是我们现在所有的检索或者识别方法都是先过了一一遍的刚声分离,还是说有一个啊,我们直接在神经网络里面去啊,忽略或者是不学习他的一个伴奏信息?
49:18
能否实现一个鲁班的一个识别或检索,呃,首先呃这个问题很好啊,首先这个分业务场景,在有些任务场景,比如说呃,我们想识别这个主播,它是真的唱还是比如说放在原唱这个场景下,可能我们会呃不用识别,不用分离也能判别出来,对,但是我们有一个特,但是我们在建呃模索引的时候,会先用分离,就比如说只对这个原唱的人声部分建一个指纹库,但是比如说我们在音色识别的话,其实还是需要的,就是确实可以,比如说我们嗯,比如说像歌词的这种对齐,有些网络,它是比如说后边是一个识别的一个模型,前面是一个分离的模型,然这两个模型它嫁接在之后,那么前面这个分离的模型它自己能够学到。
50:08
这种呃,他是不虽然是一个分离架构,但是我们觉得他应该能学到这个分离的这个能力,对,这应该是support by大概两三年前尝试的,但是呢,效果的话其实不是那么的理想。对,所以说我们还需要真正业务场景,因为我们业务场景下,除了技术的这个可行性之外,还有一个成本,对,我们还需要知道,如果成本太高的话,可能也不能接受,对。好,来我们还有最后一个提问的机会啊,那么呃,天津实验室的同学也可以提啊,平时过工作的时候没有聊到的啊,可以这个这个场合也是一个好机会啊,来,我们最后一个机会看哪位同学啊,这位同学啊,果然是啊。Mar,然后我因为是在天津实验室是做那个视频生成方向的嘛,然后我也是觉得就是音乐加视频能够传递给用户美好生活,带给他们美好的感受,但是我做的时候会有一些疑惑,就比如说我现在在做的一些视频生成,我会因为一些素材的限制,比如说他不能使用人物,但其实我觉得因为视频啊,因为要传递感情,其实人是比较关键的,但是我可能经常因为版权的问题,我不能使用这类素材,就是我们后面的话,是否会考虑到就是用虚拟人物,然后来代替呃解决这个问题呢?就是有没有这种呃方向或者想法往下做好,我解答一下,呃这个是有的,对,因为其实我们,呃像明年我们除了在这种呃语音合成,歌声合成。
51:46
还有自动作曲方面继续发力,会把这些技术合并在一起,然后打造一个虚拟IP的形象,那么它除了有声音之外,那么还需要有一个人物的形象,那么这时候就可以给你提供素材了,对,但是我们呃,这个可能需要跟其他部门联动,但是我们也可以自己先做一个技术上的完备性,把这个虚拟歌机实现上。
52:10
好啊,那我们呃,最后再用热烈的掌声感谢一下江博啊啊江今天的分享特别的精彩啊,江博对这个分享的准备也特别的充分啊,我们跟江博,我跟江博也对过很多次啊,包括我们的里面的内容,包括他的一些彩蛋啊,今天其实最后那个呃,可能技术设备的问题啊,其实最后那个他有一段美妙的音乐,他不仅用音符,还有用图像把天晴的这个他们的这个logo啊,很直观的表现出来啊,我是线下的时候跟江博看过那个非常的美好啊,也预示着我们的天晴美好的未来啊,我们再次祝愿天晴有一个呃,在我们的这个音乐的这个领域有更美好的未来。
我来说两句