前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >懒人制作学术会议 Oral/Spotlight Video指南

懒人制作学术会议 Oral/Spotlight Video指南

作者头像
AI科技评论
发布2020-06-09 15:09:44
1.9K0
发布2020-06-09 15:09:44
举报
文章被收录于专栏:AI科技评论

作者 | 山隹木又

编辑 | 丛 末

1

引言

在疫情影响下,不少学术会议都变成了线上举行,于是乎制作在线上会议上使用的oral视频成了科研工作者们的新任务,最近做了BBN工作CVPR2020 oral材料,slides的制作比较简单,有很多帖子可以参考,写个文章记录下在mac OS下做视频的工具和思路。

学术会议的视频中,图像一般是slides,声音一般是对slides的讲解。(虽然和在现场分享别无二致,但是没有实体听众,多多少少会缺点人情味和紧张感~)一个很自然的思路是,自己线下配合slides,在小黑屋里边做presentation,边录屏、录音。

虽然这样看起来流程非常自然,但是实操过程中会经常失败,比如时不时slides动画的切换没有和嘴巴配合好,时不时嘴巴秃噜了念了个错误的词,抑或是对自己的pronunciation不是很自信。如此,想录一个完整的pre出来是时间成本较高的一件事。因为我是个比较懒的人,所以想了如下的懒人思路:

  1. 写好一份精炼的讲稿,由于正常情况下人一分钟能说130~150词,所以讲稿的长度完全由视频要求的时长决定,由于CVPR视频限时5分钟,我写的就是700词左右的讲稿;
  2. 结合讲稿做好静态的slides,在脑袋里模拟一下有哪些地方需要用动画配合讲解,再添加上动画,用latex做slides的大神除外;
  3. 把讲稿扔进text-to-speech软件里,生成一份由AI念的稿子,录下来存成mp3格式;
  4. 配合AI念的语音,完成对slides的录屏,存成mp4格式;
  5. 把语音和录屏剪辑在一起,完成啦!

为什么要这么做呢?原因有以下几点:

  1. 先写稿子,稿子决定了pre的质量,稿子可以反复修改,操作空间巨大;
  2. 写好稿子再做slides,速度会非常快,而且思路会更清晰;
  3. AI生成的念稿语音可以解放我们的嘴巴,专心做好slides的页面切换和动画配合;
  4. 完成录屏后,可以直接用AI生成的语音合成视频,也可以自己跟读AI的语音,同时录音。跟读要容易很多很多,实操一把就知道;

剩下的文章分步骤详细讲讲怎么做。

2

讲稿

选择自己喜欢的写作方式,可以写俏皮一点也可以正规一点,感觉圈子还是很包容的!这里放一小段,可以用grammarly之类的app改一改。

3

Slides

知乎上有很多帖子教怎么做「学术ppt」,搜搜就有啦!主要风格还是简洁,不要摆太多字在slides上就好,TL;DR~

4

AI念稿(语音)

这里推荐谷歌家的text-to-speech,谷歌牛逼我只能说,太逼真啦!试用功能就够用啦。下面图中的红框可以调节语速,这个功能可以让你把稿子的时长刚好控制在5分钟,也是非常节省时间的一步,不需要自己瞎琢磨语速。

由于mac的录屏没有声音,所以这一步会用到一个工具叫作Audio Hijack,这个软件长成下面的样子,可以捕捉app的声音,选择成捕捉浏览器的声音,就可以把谷歌AI念的语音导出成mp3文件咯。

5

slides录屏(图像)

这里试用mac OS自带的QuickTimePlayer就ok,简单易用,导出的视频是mp4格式的,完美;

6

剪辑(语音+图像->出货)

强烈推荐mac OS自带的iMovie,几乎没有学习成本,把录屏的mp4和录音的mp3导入这个app,裁剪一下超时的视频和音频,对齐一下时间轴,随后就可以导出成成品视频啦!放一小段看看效果吧!

下面是一条硬广:

做了poster但是cvpr官方通知不需要了,觉得有点浪费!放在这里宣传一下我们的工作!code已开源!


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 讲稿
  • Slides
  • AI念稿(语音)
  • slides录屏(图像)
  • 剪辑(语音+图像->出货)
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档