“你有 FreeStyle 吗?”
“有啊!我听到或者想起某些歌曲时,经常即兴作词然后重新演绎出来。感觉自己棒棒哒!”
“那你看看这首歌词,能帮我写首相似的吗?”
“太难了我写不出来”
“给你图片元素做参考”
“臣妾真的做不到啊~你为什么不用唱图呢?”
唱图
随便给张图片,TA 就能识别图片内容!
然后根据内容创作歌词!!
并声情并茂地演唱出来!!!
还能男声女声任性切换!!!!
想要多少歌词他都能给你写出来!!!!
哪怕再不可置信,也不得不承认:
计算机软件越来越像人了,甚至有些事情比人做得更好
今天我们想说一说唱图背后蕴含的各种黑科技,把这个唱作型歌手“分解”成各种配方。毕竟你可能也想照方抓药开发个类似的 TA 出来呐~~
言归正传,我们就从一首歌曲的诞生过程来开始吧。
1
剖析创作意图并确定素材
不管是小学时候写作文,还是工作后写业务简报,甚至词曲创作,首先要明确创作意图并确定最终成果所要包含的内容。
当你在唱图中提供了一张图片后,唱图需要分析图片内容是什么,风景?建筑?人物?
如果确定图片中包含人物,那么还需要识别人物的面部表情和情绪。
毕竟,面对灿烂星空歌颂祖国壮丽山河,或对着情侣甜蜜合影倾诉相思苦,这都不是我们想要的。
因此唱图首先会利用微软认知服务中的计算机视觉API识别图片中包含的内容。这个 API 很厉害哦,可以从给出的图像中提取各种信息,例如场景、地点、名人、地标建筑物、印刷或手写文字……借此可以理解图片包含的内容,为后续创作提供素材。
计算机视觉API 识别出了图片的场景和内容
如果识别到图片中包含人物,接下来会利用认知服务中的人脸识别API和情绪识别API来判断人物的数量,性别年龄配饰等特征,以及人物的表情和情绪。其中人脸识别API 可用于实现面孔检测和识别、相似面孔搜索、面部分组等功能;情绪识别API 可以检测到愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶等常见的人类情绪。这些检测结果也将进一步应用到后面歌词创作过程中。
情绪识别API 可检测照片中的人脸并判断每个人的情绪和表情
2
歌词创作
从给出的图片里提取了创作素材后,接下来需要创作歌词了。在这一过程中,唱图会通过自然语言处理技术,通过神经网络深度学习海量歌词的创作技法,并结合用途的创作意图自动生成歌词。
为此,唱图会通过认知服务中的语言理解(LUIS)服务分析处理并理解网上流传的大量歌词,从中找出一定的规律和共同特征。随后根据上一步从用户提供的图片中提取出来的信息,再结合从现有海量歌词中学到的“作词技能”,自动生成符合图片场景的新歌词来。
3
演唱
然后,唱图就会结合创作好的歌词来搭配一段现成的曲子,并最终演唱出来。
这一过程中,唱图使用了认知服务中的必应语音API和自定义语音服务。其中必应语音API 主要用于将歌词文本转换为以男声或女声形式唱出的歌声,自定义语音服务则可通过自定义的语音识别器声学模型调整所唱内容的风格、节奏、音色等特征。
======
简单来说,唱图的所有功能,基本都是调用微软认知服务相应的 API 实现的。目前,认知服务提供了涵盖计算机影像、语音、知识、搜索、语言五大类数十种不同的服务和 API,通过灵活排列组合调用这些服务,即可快速简单地编写出可以跨平台运行的智能应用。
所以,这个网红背后的技术,虽然看着非常高大上,但讲真,任何开发者都可以轻松拥有。
如果还是不敢相信这么几个功能就可以打造出如此天才的唱作型能手,那就亲自试试吧:点这里,提供一张图片,自己感受一下 TA 到底有多厉害。
领取专属 10元无门槛券
私享最新 技术干货