前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI助力短视频创作

AI助力短视频创作

作者头像
mixlab
发布2020-02-25 12:08:54
1.9K0
发布2020-02-25 12:08:54
举报

hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。

AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。

- 大数据分析电影

这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。

实验结果:

- 视频理解

主要是场景检测、自动切割、景深等任务。

- pyscenedetect 开源库

可以用来做视频摘要,自动剪辑之类的。

项目地址:

https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io

- AutoFlip 开源库

谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切、精彩内容自动化提取等。

项目地址:

https://github.com/google/mediapipe

- monodepth开源库

可以用来预测景深

项目地址:

https://github.com/nianticlabs/monodepth2

- 视频创作

- 自动插帧

2019年,英伟达开源了Super SloMo,从普通的视频“脑补”出高帧率的画面,从30fps插帧到240fps,即使放慢8倍也不会感到卡顿。最近,上海交大的一个新的插帧算法DAIN开源。它比英伟达的算法效果更清晰、帧率更高。

项目地址:

https://github.com/baowenbo/DAIN

- 输入文本,生成视频

谷歌的VideoBERT,不需要标注数据,采用无监督学习的方式直接从视频中学习。作者借鉴了NLP中十分成功的 BERT 模型,在它的基础上进行改进,从视频数据的向量化和视频语音识别输出结果分别提取视觉和语言的特征,然后在特征序列上学习双向联合分布。

类似的研究还有ViLBERT:为视觉 - 语言任务训练非任务专用的视觉语言表征,百度也有类似的论文。

以上为全文,欢迎关注专栏,了解更多。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • - 大数据分析电影
  • - 视频理解
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档