前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌新探索,预测视频的人工智能——VideoBERT

谷歌新探索,预测视频的人工智能——VideoBERT

作者头像
AiTechYun
发布2019-09-16 16:52:45
1.8K0
发布2019-09-16 16:52:45
举报
文章被收录于专栏:ATYUN订阅号

对人类来说,识别活动并预测接下来一段时间内可能发生的事情是很容易的,因为人类总是下意识地做出这样的预测,但机器要做到这一点就很困难,尤其是在标签数据相对缺乏的地方。(动作分类的人工智能系统通常会结合视频样本进行注释训练。)这就是谷歌研究团队推出VideoBERT的原因。VideoBERT是一个自我监督系统,可以处理各种代理任务,从未标记的视频中学习时间表示。

正如研究人员在一篇论文和博客文章中解释的那样,VideoBERT的目标是发现随着时间推移而展开的事件和动作相对应的高级视听语义特征。“Peech往往与视频中的视觉信号在时间上保持一致,可以通过现成的自动语音识别(ASR)系统进行提取,这是自我监督的天然来源。”——谷歌研究员科学家Chen Sun和Cordelia Schmid。

为了定义能够引导模型学习活动关键特征的任务,团队使用了谷歌的BERT,这是一种自然语言人工智能系统,旨在为句子之间的关系建模。具体来说,他们使用图像帧结合语音,以识别系统的句子输出,根据特征相似性将帧转换为1.5秒的视觉标记,并将其与单词标记连接起来,最后,让VideoBERT来填补视觉文本句子中缺失的标记。

研究人员对videobert进行了超过一百万个教学视频的培训,这些视频涉及烹饪、园艺和车辆维修等多个类别。为了确保它学会了视频和文本之间的语义对应,研究小组在一个烹饪视频数据集上测试了它的准确性,结果是喜人的,VideoBert成功预测了这样的情况:一碗面粉和可可粉在烤箱中烘烤后,可能会变成布朗尼或杯形蛋糕。并且,VideoBert还从视频和视频片段中生成了一组说明(例如食谱)来反映每一步所描述的内容。

但可惜的是,VideoBERT并不是完美的,它的视觉标记往往会丢失细粒度的视觉信息,比如更小的物体和微妙的运动。在经过多次探索与实验后,研究小组用一个他们称为对比双向变压器(CBT)的模型去掉标记化步骤,从而解决了这个问题。

研究人员表示,为了使VideoBERT更好地适应视频环境,他们的工作重心将会放在学习低水平的视觉特征和长期的时间表征上面。此外,他们计划扩大培训前视频的数量,让VideoBERT变得更加厉害。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档