专栏首页ATYUN订阅号谷歌新探索,预测视频的人工智能——VideoBERT

谷歌新探索,预测视频的人工智能——VideoBERT

对人类来说,识别活动并预测接下来一段时间内可能发生的事情是很容易的,因为人类总是下意识地做出这样的预测,但机器要做到这一点就很困难,尤其是在标签数据相对缺乏的地方。(动作分类的人工智能系统通常会结合视频样本进行注释训练。)这就是谷歌研究团队推出VideoBERT的原因。VideoBERT是一个自我监督系统,可以处理各种代理任务,从未标记的视频中学习时间表示。

正如研究人员在一篇论文和博客文章中解释的那样,VideoBERT的目标是发现随着时间推移而展开的事件和动作相对应的高级视听语义特征。“Peech往往与视频中的视觉信号在时间上保持一致,可以通过现成的自动语音识别(ASR)系统进行提取,这是自我监督的天然来源。”——谷歌研究员科学家Chen Sun和Cordelia Schmid。

为了定义能够引导模型学习活动关键特征的任务,团队使用了谷歌的BERT,这是一种自然语言人工智能系统,旨在为句子之间的关系建模。具体来说,他们使用图像帧结合语音,以识别系统的句子输出,根据特征相似性将帧转换为1.5秒的视觉标记,并将其与单词标记连接起来,最后,让VideoBERT来填补视觉文本句子中缺失的标记。

研究人员对videobert进行了超过一百万个教学视频的培训,这些视频涉及烹饪、园艺和车辆维修等多个类别。为了确保它学会了视频和文本之间的语义对应,研究小组在一个烹饪视频数据集上测试了它的准确性,结果是喜人的,VideoBert成功预测了这样的情况:一碗面粉和可可粉在烤箱中烘烤后,可能会变成布朗尼或杯形蛋糕。并且,VideoBert还从视频和视频片段中生成了一组说明(例如食谱)来反映每一步所描述的内容。

但可惜的是,VideoBERT并不是完美的,它的视觉标记往往会丢失细粒度的视觉信息,比如更小的物体和微妙的运动。在经过多次探索与实验后,研究小组用一个他们称为对比双向变压器(CBT)的模型去掉标记化步骤,从而解决了这个问题。

研究人员表示,为了使VideoBERT更好地适应视频环境,他们的工作重心将会放在学习低水平的视觉特征和长期的时间表征上面。此外,他们计划扩大培训前视频的数量,让VideoBERT变得更加厉害。

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Adobe推出新功能:利用AI自动标记视频,又快又准

    用户生成的内容(UGC)对营销人员非常重要。有证据表明它比内部媒体产生更好的投资回报率。据Adweek的数据,64%的社交媒体用户在做出购买决定之前会确定UGC...

    AiTechYun
  • 【业界】2017年回顾:10个人工智能失败案例

    今年,人工智能程序AlphaGo和Libratus分别击败了世界上最优秀的围棋选手和扑克玩家。尽管这些里程碑表明了人工智能在近年来的发展程度,但许多人仍对新兴技...

    AiTechYun
  • 新兴技术如何影响地理空间行业?

    人工智能,云计算,大数据等技术的进步和创新在过去几年中改变了业务开展方式。这种持续发展也导致了数字技术环境的发展,从而加速了地理空间行业的全球影响力和贡献。

    AiTechYun
  • 震惊:编程或者软件开发竟然不算知识?

    自从上次看了业界大神阮一峰发的那篇文章之后,给我的印象非常的深刻,一直想写文章跟大家交流和探讨一下,那就是:软件开发到底算不算知识呢?

    非著名程序员
  • GitHub 要被卖了,但是又……

    非著名程序员
  • 当 Atom 遇见 VSCode:微软将对 GitHub 做的 6 件事

    在微软宣布以 75 亿美元的价格收购 GitHub 后,这个在全球拥有超过 2800 万开发者的代码托管平台即将在微软庞大的云计算框架下进行独立运作。 微软 C...

    Debian社区
  • 一个技术人的出书经历

    故事得从我大学毕业时候说起啦。大四第一学期忙着准备考研,错过了秋招,然而研究生也没考上,过完年研究生考试成绩出来后,一看不行就赶紧出来找工作,西北农村娃,不敢耗...

    纯洁的微笑
  • 开门人和关门人

    题目描述 每天第一个到机房的人要把门打开,最后一个离开的人要把门关好。现有一堆杂乱的机房签到、签离记录,请根据记录找出当天开门和关门的人。 输入...

    AI那点小事
  • win32之进程概念

      学习WindowsAPI. 之前.我们必须理解什么是进程. 在windows环境下.进程就是一个运行起来的exe程序

    IBinary
  • 如何在OpenStack Kolla上部署Tungsten Fabric(附14个常见的配置问题)

    首先,使用contil-kolla-ansible-deployer容器在OpenStack Kolla上部署Tungsten Fabric(注:原文为Cont...

    Tungsten Fabric

扫码关注云+社区

领取腾讯云代金券