首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌新探索,预测视频的人工智能——VideoBERT

这就是谷歌研究团队推出VideoBERT的原因。VideoBERT是一个自我监督系统,可以处理各种代理任务,从未标记的视频中学习时间表示。...研究人员对videobert进行了超过一百万个教学视频的培训,这些视频涉及烹饪、园艺和车辆维修等多个类别。...并且,VideoBert还从视频和视频片段中生成了一组说明(例如食谱)来反映每一步所描述的内容。 ?...但可惜的是,VideoBERT并不是完美的,它的视觉标记往往会丢失细粒度的视觉信息,比如更小的物体和微妙的运动。...研究人员表示,为了使VideoBERT更好地适应视频环境,他们的工作重心将会放在学习低水平的视觉特征和长期的时间表征上面。此外,他们计划扩大培训前视频的数量,让VideoBERT变得更加厉害。

1.7K10

BERT模型进军视频领域,看你和面就知会做蛋糕

近日,谷歌的 AI 博客介绍了他们在这方面的两项研究成果 VideoBERT 和 CBT。...谷歌的研究者提出了使用无标注视频学习时间表征的方法,他们的研究成果发布在论文《VideoBERT:一种用于视频和语言表征学习的联合模型(VideoBERT)》与《用于时间表示学习的对比双向 Transformer...基于这些数据,研究者训练了 VideoBERT 模型来基于视觉-文本句子填补缺失的 token。...检查 VideoBERT 模型 训练 VideoBERT 的数据是超过 100 万条教学视频,比如烹饪、园艺和车辆维修。...使用对比双向 Transformer 进行迁移学习 尽管 VideoBERT 在学习如何自动标注和预测视频内容方面表现出色,但研究者也注意到 VideoBERT 所使用的视觉 token 可能丢失细粒度的视觉信息

91450
您找到你想要的搜索结果了吗?
是的
没有找到
领券