把照片唱给你听 :腾讯 AI Lab 国际领先技术邀你「趣」体验

感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

2017年8月,在图像描述生成技术这一计算机视觉与NLP交叉研究领域,腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一,超过了微软、谷歌、IBM等参赛公司,体现了在这一前沿领域的技术优势。

微软MS COCO也称常见物体图像识别数据集,对图像的标注信息包括类别、位置和图像语义文本描述等,该数据集的开源使近两三年来图像分割语义理解取得了巨大进展,几乎成为图像语义理解算法性能评价的「标准」数据集。链接:http://cocodataset.org/#captions-leaderboard

团队特别制作了「把照片唱给你听」体验Demo,将图像描述生成技术与文本转语音(Text to Speech,简称TTS)两大AI技术结合,希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律Rap出来。

视频内容

上传吃喝玩乐国庆美图时,AI唱出来是这样的

视频内容

上传不太正常的图片时,AI可能会被被网友的脑洞玩坏 -_-||

现在,我们将邀请100位「首席体验官」优先测试Demo。如果你有相关技术背景,或图片视频制作经验,将有机会优先体验。请留下评论,回复您的姓名+邮箱+所属公司+职业,如:王小明+wxm@qq.com+腾讯+设计,我们将稍后通知测试方法。

Demo 第 一 步:让 机 器 看 图 写 词

详 解 图 像 描 述 生 成 技 术

Demo中机器「写」出的歌词,其实是给图片配上一句话说明,也被称为图像描述生成。这是一个跨模态(Cross-modality)研究方向,机器不仅要理解图像内容,还要学习和组织语句,给出通顺并符合人类语义习惯的表述。

图像描述生成是一个让机器学会深度理解图片内容的技术。以前,机器只能识别图片里出现的是一只狗,而不是猫;现在,机器不仅识别出狗,说出它的颜色甚至种类,甚至能理解它所处的环境和与其他物体的关系,这体现了机器「视觉能力」的进步。

从简单的图片分类到生成复杂的文字描述,机器用了30多年

在一个三岁儿童的眼里,这可能是个很简单的任务。但机器走到这一步,花费了几十年的时间。尽管如此,机器在理解更复杂的图像内容时,恐怕依旧赶不上三岁小孩。但我们相信,机器前进的每一小步,都体现出人类智慧的一大步。

Demo中使用的是我们全新设计的图像描述模型,采用端到端编码器-解码器模型。这个过程可以用下面的图片表示出来:给定一张图片,用卷积神经网络(CNN)为图片编码,得到全局或局部的图片表示;用长短时记忆模型(LSTM)解码上述的图片表示,转换为一句话的文字说明。解码过程中创新采用了注意力模型(Multistage Attention Model),捕捉到了每个单词生成时,不同局部信息的贡献程度,通过引入不同级(stage)注意力模型,更加充分的挖掘在产生每一个单词的过程中的图像的全局和局部信息的贡献;而整个深度网络模型得到了强化学习的充分训练,从而产生更加流畅的自然语句描述图像内容。

Demo采用的全新图像描述模型

在研究上,这个技术能同时推进对图像和自然语言间单学科到跨学科的理解、分析与运用。而应用上,它的前景非常值得期待。互联网上几乎大部分数据都以图像+文本的多模态方式存在,仅以腾讯产品为例,从微信朋友圈、QQ空间图片到天天快报的新闻,都是图像与文本强相关的素材,这之间的深度关系挖掘,能促进更强的内容理解,进而提供更好的产品体验。比如能为相册照片自动生成丰富的描述,可进一步提升图片的分类、搜索和推荐质量;用于图像文本对话系统中,可为图片生成更相关的评论,或直接做「斗图」这样的趣味图像对话;与语音技术结合时,能帮助幼儿或视觉障碍人群更好地理解图像内容。

Demo 第 二 步:让 机 器 看 字 说 话

聊 聊 文 本 转 语 音 技 术 TTS

机器「唱」给你听的,正是将文字转为语音的合成声音。语音合成(Speech Synthesis)或文本转语音(TTS)技术,是Siri这类语音助手不可或缺的一部分,也被广泛应用到游戏、读书及娱乐等领域。

我们使用了商业产品中最常见的参数合成技术,提供了清晰可理解、自然流畅的语音。这背后是大量的工作,第一步是录制专业播音人才近20小时语料;因为不可能录制人的每一句话,第二步里机器要将语音切片成音素,最后使用深度学习对音素的的声学特征与时长建模。

目前我们还在进一步研究语料库较小、低占用的参数合成技术,并考虑将单元选择的高品质和参数合成的灵活性优势结合。

让 内 容 与 AI 做 加 法

机 器 对 文 字、图 像 与 视 频 施 魔 法

结合腾讯内容产品上的独特优势,针对图像、视频、新闻与文学等领域的「内容AI」一直是腾讯AI Lab的四大应用方向之一。

针对图像、视频和文本等多媒体内容AI,我们不断进行探索与尝试,并在基础图像识别领域,如人脸检测、人脸识别及OCR方面有很大突破,更多细节将在11月8日在成都举办的腾讯全球合作伙伴大会(点链接)上分享,敬请期待。

原文来自:腾讯AI实验室 公众号

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

一篇文章讲清楚人工智能、机器学习和深度学习的区别与联系

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 人工智能的浪潮正在席卷全球,诸多词汇...

4637
来自专栏机器学习算法工程师

AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言   近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 G...

3459
来自专栏深度学习与数据挖掘实战

干货|专访ImageNet冠军颜水成团队,如何将比赛成果在企业中落地?

2017 年 7 月 26 日,计算机视觉顶会 CVPR 2017 同期举行的 “超越 ILSVRC” Workshop 上,宣布计算机视觉乃至整个人工智能发展...

3702
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

3005
来自专栏机器学习算法与Python学习

机器学习很难上手和提升?你只差一条学习路径!

从网易云音乐的歌单、亚马逊的商品到抖音的短视频,机器学习主导的推荐系统改变了用户浏览习惯;iphone x 在刘海中祭出3D结构光,人脸识别AI便在移动终端迅速...

730
来自专栏AI科技评论

业界 | Facebook全面转为神经网络人工智能翻译

AI 科技评论按:语言翻译是一股能够让人们组建群体和使世界更加紧密的力量。 它可以帮助人们与在海外居住的家庭成员联系起来,或者可以更好地了解讲不同语言的人们的观...

3319
来自专栏AI科技大本营的专栏

首发|机器学习未来十年:你需要把握的趋势和热点

CSDN 出品的《2018-2019 中国人工智能产业路线图》V2.0 版即将重磅面世!

931
来自专栏机器之心

Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会。会上以及随后受邀前往清华时,他给出了题为「深度学习通往...

782
来自专栏机器人网

7本必看入门深度学习书籍

对于入门深度学习的书籍,计算机视觉专家 Adrian Rosebrock 最近写了篇非常实用的书单,给深度学习新手推荐了7本书籍,最最重要的是,告诉了你最适合看...

5454
来自专栏BestSDK

Facebook:AI视觉训练升级,1秒钟可记录40000张图片

Facebook近日在西雅图 Data@Scale 大会上公布的一篇研究论文中表示,已成功开发一套新的计算机视觉系统,该系统在每秒钟可完成4万张图片的训练。这样...

40415

扫码关注云+社区

领取腾讯云代金券