抖音博物馆刷屏背后的AI技术

5.18博物馆日前夕,抖音“第一届文物戏精大会”的H5在朋友圈刷屏——这一2018开年以来最佳新媒体传播案例,从抖音产生毫不令人意外,这背后不仅是玩到飞起的市场创意,还有深厚的技术积累支撑。

抖音上的国宝“戏精们”,一经推出即成爆款,总播放量超过1.18亿次。同样走红的还有尬舞机、憨厚脸、AR发红包等特效,这些脑洞功能的实现,依靠字节跳动人工智能实验室(简称AI Lab)的技术支持。他们是如何把复杂技术变成爆款功能的?今天字节范儿就带你走入Lab同学的极客世界。

贴纸道具:AR技术

阿育王塔贴纸

国际博物馆日前夕,中国国家博物馆、湖南省博物馆、陕西历史博物馆等七大国家一级博物馆集体入驻抖音,与抖音合作推出“博物馆抖音创意视频大赛”。

配合此次活动,抖音推出了两款“奇妙博物馆”AR贴纸,一款让用户在拍摄抖音视频时360°全方位观赏国博18号展厅,还有一款把浙江省博物馆馆藏国宝“五代吴越国阿育王塔”做成了动态旋转的贴纸。

借助SLAM和3D渲染技术,阿育王塔的大小、角度均可由用户进行自由变换调整,既可以出现在办公桌上,也可以停留在手指尖上。

SLAM(Simultaneous Localization and Mapping)是视觉领域空间定位技术的前沿方向,AI Lab目前做这个方向的一共有3人,“之前没有人懂这块,校招来的两个人,只有一个是做这个的,另一位同事也没有这个背景。”

小淮是图像算法组SLAM方向的第一个成员,他日常的工作分成两部分,客户端开发和研究性算法。

“技术难度比较大,对我自己来说是个新领域。”在小淮眼里,他们组的三个人像是一个内部的创业团队,一方面每双月搜集业务线的需求,另一方面也关注着行业里最新兴的技术,自研demo拿去给业务线评估,“他们有兴趣我们就投入去做。”

在SLAM方向,字节跳动坚持纯自研,自己的产品上用自己的算法。国内很多应用AR技术的产品,是直接从to B的人工智能公司买技术。国外科技公司也有自研技术的,“苹果要先配合手机动一动才能识别,这个我们PM肯定不能接受。我们就要做好,平衡好用户才能上线。”

在字节跳动,众多产品业务线提供的应用场景,实际上在某种意义上对AR技术提出了更高的要求。To C的AR技术要求更稳定,iOS和安卓端都可以适配,后期还要有很多扩展。

让小淮回忆一个有成就感的时刻,他想了半天,最后挠挠头说:“还是上线吧,我女朋友就挺爱玩的。”

小淮女友最喜欢的AR贴纸“熊童子”

抖音特效贴纸:人脸识别技术

你眼里的自己

...

Lab同学眼里的你

(抖音关注

字节君看完整版)

你对着手机眨眼摇头卖萌时,或许想不到在人脸识别系统中,你就是这幅样子的——宛若一个会动的人脸穴位图。

“这版还很粗糙,你们看个大概。”小春展示人脸识别demo时,有点不好意思。他是AI Lab图像算法组的一员,负责对外的SDK封装,人脸识别相关的特效工程。

小春展示的demo是人脸识别技术,即检测出人脸的位置,同时在人像图像上定位出五官关键点坐标。这项技术被大量应用在抖音、火山、Faceu等产品的人脸动画贴纸中。

外行看热闹,内行看门道,我们眼里好玩的特效,在小春眼里是一个一个的技术点,每一环的实现,都有他付出过的心血。

Lab图像团队与PM们有一个沟通群,平时大家有好的想法会丢到群里脑暴,他们也会定期开会,PM提出希望实现的效果,Lab判断技术上是否可行。

小春所在的Lab图像算法工程团队,成立不过一年的时间。一年前,Lab侧重NLP自然语言处理,服务以图文内容为主的今日头条;一年后,随着视频业务的崛起,Lab的图像算法组有几十人,和抖音、火山的技术团队一起在短期内把字节跳动的多媒体技术提高到国内领先位置——

优秀的团队未必很有经验,但一定会“Always Day 1”拥抱变化。

对字节跳动的工程师而言,在这里不只产品和设计离用户近,研发离用户也很近。因为每一个交互体验都依赖代码的实现,技术也是离业务最近的人,一样关心业务本身。

小春现在工作中涉及的深度学习内容,是他通过看论文和开源代码自学的,组里除了leader指导,每周还会有技术分享会,有自主学习的氛围。“从技术角度来说,我们经历过一段时间,技术上会有不少累计,假设现在有个新东西要做,已有技术有很好的迁移性,可以高效产出。”

经过一年多的磨合,小春表示自己和业务线已经很有默契,“他们需要的东西都会和我们同步,我们知道他们想要什么功能,他们也知道我们有什么样的技术。”

算上海外产品,小春要对接的视频产品线很多,Lab和业务之间沟通透明,直接看到应用场景,对接上亿用户,拥有海量的用户数据。这些数据产生好的标注,标注帮助训练模型,最终形成“人-数据-算法-信息”的良性循环。

尬舞机:人体关键节点识别

2017年12月22日,“国民闺女”关晓彤入驻抖音,第一条玩尬舞机的视频,迅速获得几十万赞,在全网传播发酵。

那是一个周五,距离关晓彤学校北影3公里远的中航广场里,开发尬舞机的工程师们正准备下班后一起去聚餐。

这是值得庆祝的一天——结束一个月的封闭开发,尬舞机项目顺利上线,上线第二天就帮助抖音强势登顶中国App Store——小春和他的同事们决定“吃顿好的”抒发内心喜悦。

Lab图像算法组不仅输出贴纸特效,还为很多有趣玩法提供技术支持,尬舞机就是其中之一。

最初是抖音的UI设计师想到把家里电视上体感装置的跳舞毯搬到手机上,通过自拍玩跳舞机。确定想法的第二天,抖音团队就和Lab图像团队开会讨论尬舞机方案的可行性。尬舞机的想法虽然好玩,但两个技术难点却可能把有类似想法的同行拦在门外:一是人体的形变范围比较大,受衣服变化、物体遮挡等影响严重;二要实现精准检测,需要耗费高昂的计算资源,无法在手机端实现日常场景应用。

“尬舞机是实时的,视频截了一帧,算法要检测人体关键点,在几十毫秒里做完才可以保证流畅性。如果用户动作比较标准,算法却识别不出来,就很影响体验。”

为了解决技术难点,尬舞机项目团队决定封闭开发,他们下会以后在卫通三层找了一个大会议室,隔天就搬来开始封闭开发。

人体关键点检测

小春和同事们创新了技术方案,相比于业界流行的自顶向下(Top-Down)的方案,我们采用了自底向上(Bottom-Up)的方案,核心是针对移动端设备自研的网络结构,极大地减少计算量,同时让准确率大幅提升,实现了在移动端的实时无损运行。

Lab团队和抖音的研发、PM、设计师、运营和音乐编辑坐在一起,一环扣一环地解决问题,到封闭快结束的时候,测试过无数遍,他们已经有点玩腻了。

让他们没想到的是,用户把尬舞机跳出了不同的风格,他们并不是规规矩矩连贯着做动作,而是在下一个小人飞出前自由发挥,用户的创新玩法,反而给了开发者们灵感。

尬舞机推出后,很多竞品也跟风推出了类似的功能。小春在家里试用,认为性能不如尬舞机:“卡顿是否明显,动作匹配够不够精准,这个一看就看得出来。”

脑洞再大,创意再好玩,最后也要有一群技术上追求极致的工程师来保障。

接下来,Lab图像算法组计划开放Byted Effect SDK库,这个库包括移动端实时的人脸检测、关键点定位、美颜和滤镜等多种功能,已经在抖音、火山多款APP上运行,速度快、功耗低,在几百元的低端机上都能超实时运行。前期面向中小企业免费开放,帮助中小企业快速打造各种酷炫的特效,欢迎前来咨询与合作。

我们也期待这群工程师继续用AI造梦,给我们带来更多有趣的产品玩法。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180531G1L6I800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券