专栏首页Windows CommunityUWP 手绘视频创作工具技术分享系列 - 有 AI 的手绘视频

UWP 手绘视频创作工具技术分享系列 - 有 AI 的手绘视频

AI(Artificial Intelligence)正在不断的改变着各个行业的形态和人们的生活方式,图像识别、语音识别、自然语言理解等 AI 技术正在自动驾驶、智能机器人、人脸识别、智能助理等领域中发挥着越来越重要的作用。

那么当手绘视频遇到 AI,有 AI 的手绘视频领域,有 AI 的 UWP 手绘视频创作工具,会发生些什么呢?我们从12月23日的一次发布会开始讲起吧:

2018年短视频新生态峰会暨来画新品发布会

在本次发布会上,来画视频发布了正式上线的 iOS Android 手绘视频 App 和一系列新功能,二更、同道大叔、Prezi 创始人等也带来了短视频行业的精彩分享,而在 AI 方面,更是发布了两大核心功能:智能配音和智能绘画。

众所周知,在视频中,图像和声音是最重要的两个因素,而对应到手绘视频中,则是配音和手绘素材:

1. 配音

首先来说配音,在配音方面,来画与科大讯飞进行了深度合作。科大讯飞是国内外语音识别和语音生成领域领先的人工智能公司,而本次合作也是科大讯飞在短视频领域的首次尝试,双方都对本次合作寄予了很高的期待。过往大家想制作一个短视频时,配音需要专业配音人员完成。因为我们很多人的声音或者对语速、语音的控制完成不了专业的要求。但依靠来画和科大讯飞完成的智能配音功能,如下图的操作方式,用户只需要输入简单的文字以及你想使用谁的声音。比如葛优、林志玲或者其他人的声音,可以设置基本语速,还可以做相应停顿,就可以一键生成视频中需要的配音,把它结合到手绘视频中。

由于手绘视频不像拍摄视频那样对配音的音画同步要求那么严格,我们在实现时更多的是针对手绘视频的每个分镜头进行配音生成,让每个分镜头的配音是和当前画面同步的。针对每个分镜头,可以设置不同的语音来源,不同的语速,配合转场动画设置不同的停顿时间。

在技术实现上,借助科大讯飞的 tts 技术,获得每个分组的 mp3 语音文件,在手绘视频预览和生成时,把多个 mp3 文件合成到视频文件的音轨中,设置不同的音量和语音开始时间、语音长度等信息。为保证语音生成的成功率(时长和同步方面),在输入文字后,可以根据文字数量,以及设置的语速和停顿时间,来预估语音的时长,减少反复转换尝试。

2.  手绘素材

在中国,有数亿的手绘爱好者,大家渴望用手绘视频的方式来表达自己的感受。但是苦于绘画基础的差异,很多人没办法很顺利的完成手绘视频的创作。

为此,目前来画视频平台积累了大量的手绘素材,拥有丰富的标签和精准的分类,让用户可以随心的选择。

尽管如此,来画还在不断探索更好的技术方式来满足用户对手绘素材的需求,降低创作门槛。而这种技术方式就是来画的 AI。

来画 AI 由三部分组成:手绘路径的智能识别、智能优化和智能生成。

这是一个不断递进的过程,当用户绘制一段路径时,来画 AI 算法可以识别和理解路径,推荐出最符合用户想法的分类素材供选择,选择后还可以做智能填色等后续处理。比如用户在画类似圆形的路径,AI 可以识别为圆,球形,水果等;而在用户画了两个圆形,再去画一个梯形时,AI 会认为你想画一辆汽车。这就是我们目前研发完成的智能识别功能,它可以极大降低用户创作素材的时间和难度。

而更进一步,当用户绘制一段路径,比如曲线时,AI 算法识别和理解路径,并对曲线中有偏差的部分路径做出局部纠正和优化,这样可以在降低创作时间难度的基础上,极大的保留用户的手绘内容和风格。

最终,我们要实现的是 AI 自动绘画,你只需要告诉 AI 你想画的内容,AI 就可以依照对该用户绘制风格的理解和评定,自动完成整副画作的绘制,包括整体画风、路径、颜色填充等。这样的来画AI,能够极大的降低用户创作素材的时间和难度,让所有没有绘画基础的人,也可以快速的完成高质量的属于自己的手绘视频创作,这才是来画 AI 要实现的目标。

在技术实现方面,智能识别是图像识别的深度学习,具体说是手绘草稿的识别范畴;在算法模型的训练方面,我们对接近 400 个分类的 4000w 个 SVG 数据进行了数据清洗和标注、训练,目前算法对于常见图形的识别效果很好,随着这一功能的上线,后面也会加强更多分类的数据采集和训练工作;而智能优化和智能生成,除了对于草稿的图像识别,还有对于绘制图形的路径理解和目标图形的路径理解,这也是后面突破的重点方向。

结合了配音功能和手绘素材智能识别的 UWP 来画视频将会在接下来发布,欢迎大家下载使用,多提宝贵意见。

对这两个方面感兴趣的朋友,欢迎和我交流,谢谢!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Microsoft Tech Summit 2018 课程简述:利用 Windows 新特性开发出更好的手绘视频应用

    Microsoft Tech Summit 2018 微软技术暨生态大会将于10月24日至27日在上海世博中心举行,这也会是国内举办的最后一届 Tech Sum...

    Shao Meng
  • Windows Developer Day - Adaptive Cards

    概述 Windows Developer Day 在 Modern Application Experience 环节展示了一种可以让开发者以更通用和统一的方式...

    Shao Meng
  • About Windows 10 April 2018 Update

    Shao Meng
  • 【盘点】2016年AR大事件 苹果iPhone7也能上榜?

    2016年AR大事件: Snapchat Ads、Pokémon Go、Microsoft Hololens、Tango、Apple iPhone 7 全文较...

    钱塘数据
  • Fundebug支持高亮出错代码位置

    摘要: 当用户的代码出错时,我们能够捕获出错的代码片段,并且高亮出错的行和列,这样用户可以快速定位出错位置。

    Fundebug
  • centos7使用kubeadm安装kubernetes 1.11版本多主高可用

    关闭任一master节点测试集群是能否正常执行上一步的基础测试,查看相关信息,不能同时关闭两个节点,因为3个节点组成的etcd集群,最多只能有一个当机。

    菲宇
  • 高通股价1小时暴涨23%的背后,除了5G芯片还有什么值得关注

    上周,苹果和高通联合发布声明,放弃在全球层面的所有法律诉讼,签署至少六年的专利许可协议和多年的芯片组供应协议。声明发出后1小时,高通股票暴涨23%收盘。高通股票...

    大数据文摘
  • 美颜相机已无法满足老夫的少女心,关键还得靠AR

    VRPinea
  • 走向增强现实城市主义 ,AR与建筑的融合

    ● ● 科技的进步将为我们这个物理世界叠加上多个虚拟世界,也将创造出横跨几万公里的一个共同在线的巨大数字空间,人类的生活将被无尽地拓展。

    mixlab
  • 我是如何用 Webpack 虐待代码尺寸的 (第一回合)

    在说压缩之前,先说一下这个项目。这是一个手机 WAP版的 IM 在线客服页面,如图

    普通程序员

扫码关注云+社区

领取腾讯云代金券