videobert - 腾讯云开发者社区

文章/答案/技术大牛

发布

谷歌新探索，预测视频的人工智能——VideoBERT

这就是谷歌研究团队推出VideoBERT的原因。VideoBERT是一个自我监督系统，可以处理各种代理任务，从未标记的视频中学习时间表示。...研究人员对videobert进行了超过一百万个教学视频的培训，这些视频涉及烹饪、园艺和车辆维修等多个类别。...并且，VideoBert还从视频和视频片段中生成了一组说明（例如食谱）来反映每一步所描述的内容。 ?...但可惜的是，VideoBERT并不是完美的，它的视觉标记往往会丢失细粒度的视觉信息，比如更小的物体和微妙的运动。...研究人员表示，为了使VideoBERT更好地适应视频环境，他们的工作重心将会放在学习低水平的视觉特征和长期的时间表征上面。此外，他们计划扩大培训前视频的数量，让VideoBERT变得更加厉害。

1.8K1 0

BERT模型进军视频领域，看你和面就知会做蛋糕

近日，谷歌的 AI 博客介绍了他们在这方面的两项研究成果 VideoBERT 和 CBT。...谷歌的研究者提出了使用无标注视频学习时间表征的方法，他们的研究成果发布在论文《VideoBERT：一种用于视频和语言表征学习的联合模型（VideoBERT）》与《用于时间表示学习的对比双向 Transformer...基于这些数据，研究者训练了 VideoBERT 模型来基于视觉-文本句子填补缺失的 token。...检查 VideoBERT 模型训练 VideoBERT 的数据是超过 100 万条教学视频，比如烹饪、园艺和车辆维修。...使用对比双向 Transformer 进行迁移学习尽管 VideoBERT 在学习如何自动标注和预测视频内容方面表现出色，但研究者也注意到 VideoBERT 所使用的视觉 token 可能丢失细粒度的视觉信息

9735 0

您找到你想要的搜索结果了吗？

是的

没有找到

如何让BERT拥有视觉感知能力？两种方式将视频信息注入BERT

BERT（language prior）代表直接使用原始BERT，VideoBERT（language prior）是指在原始BERT基础上增加视频数据提取出得文本数据进行学习，VideoBERT（cross...2.2 video caption 作者利用该任务验证VideoBERT作为特征抽取的有效性。...（1）使用S3D提取的feature（baseline）（2）使用VideoBERT提取feature （3）VideoBERT feature拼接S3D feature（最强厂牌） ? ?...从定性的例子中可以看到，使用VideoBERT feature生成的video caption内容更加的细节，更为生动具体。...从定量的指标上来看，VideoBERT+S3D取得了最好的效果，VideoBERT学出来的feature对下游任务video caption有很大的提升。

1K1 0

7 Papers | AI写论文更近一步？联邦学习怎样与通信领域结合

同时还有谷歌的 VideoBERT、系统优化中的强化学习、神经架构搜索相关的综述和案例介绍论文。...Motivation, Opportunities and Challenges Batch Normalization is a Cause of Adversarial Vulnerability VideoBERT...论文 6：VideoBERT: A Joint Model for Video and Language Representation Learning 作者：Chen Sun、Austin Myers...VideoBERT 的模型架构。 ? 使用模型预测烹饪过程中的下一步操作。

7081 0

跨界出圈 | 谈谈BERT跨模态预训练

VideoBERT 论文：VideoBERT: A Joint Model for Video and Language Representation Learning 地址：https://arxiv.org...Cross-modal Pre-training 地址：https://arxiv.org/abs/1908.06066 arxiv访问不方便的同学后台回复『0028』直接获取论文网络结构和训练策略与VideoBert

1.2K1 0

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

VideoBERT 被称为第一个视频 - 文本预训练模型，其扩展 BERT 模型以同时处理视频和文本。...VideoBERT 使用预训练的 ConvNet 和 S3D 来提取视频特征并将它们与文本词嵌入连接起来，并馈送到以 BERT 进行初始化的 transformer。...在训练 VideoBERT 时，ConvNet 和 S3D 被冻结，这表明该方法不是端到端的。

4722 0

多模态综述 | 一文了解Language-Vision预训练最新进展和新领域

2.5K3 0

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

2.4K2 0

【综述】基于Transformer的视频语言预训练

MFMCL的典型例子可以在VideoBERT中找到，VideoBERT将连续视频分割成片段token，并通过分层k均值将片段token聚类成固定大小的字典。...Single-Stream Structure VideoBERT是第一个利用基于Transformer的预训练方法探索视频语言表达的人。它遵循单流结构，将原始的BERT结构移植到多模态域。

1.1K1 0

AI助力短视频创作

- 输入文本，生成视频谷歌的VideoBERT，不需要标注数据，采用无监督学习的方式直接从视频中学习。

2.1K2 0

我监督我自己！Google AI发布用于视频的BERT模型 | 一周AI最火学术

模型中提出的VideoBERT对于包括动作分类，视频字幕在内的任务非常有用，可以直接应用于开放词汇分类。

5573 0

谷歌多模态预训练框架：视频字幕、动作分类、问答全部实现SOTA

VideoBERT 和 CoMVT 等先前的研究通过利用自动语音识别（ASR）对未标记视频的模型进行预训练。

1K2 0

多模态大模型技术原理与实战(3)

线性层+激活函数+Dropout的组合体 ·VideoBERT模型：是第一个将Transformer应用到多模态领域的模型。 o被广泛地应用于视频生成视频描述、视频问答、视频动作分类等任务中。...2，基于多模态对齐数据训练多模态大模型 VideoBERT、CLIP、CoCa、CoDi。

4982 0

我监督我自己！Google AI发布用于视频的BERT模型 | 一周AI最火学术

模型中提出的VideoBERT对于包括动作分类，视频字幕在内的任务非常有用，可以直接应用于开放词汇分类。

5722 0

【综述专栏】视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述！！！

基于Transformer的模型，如ViLBERT、VideoBERT等，通过联合编码视频和语言模态，实现了更有效的跨模态交互。

2461 0

预训练语言模型（PLM）必读论文清单（附论文PDF、源码和模型链接）

论文: https://arxiv.org/pdf/1908.02265.pdf 代码+模型: https://github.com/jiasenlu/vilbert_beta VideoBERT: A

1.7K2 0

预训练模型超全知识点梳理与面试必备高频FAQ

多模态的PTMs在一些庞大的跨模式数据语料库（带有文字的语音、视频、图像）上进行了预训练，如带有文字的语音、视频、图像等，主要有 VideoBERT[63]、CBT[64] 、UniViLM[65]、...shared projections [62] Distilling task-specific knowledge from BERT into simple neural networks [63] VideoBERT

2.3K6 4

视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！

VideoBERT是第一个应用BERT来学习视频文本对的联合嵌入的方法。但由于只有离散的token被用来表示视频帧，丰富的视频帧特征并没有得到充分利用。

2.6K2 0

【综述专栏】最新视觉-语言预训练综述

然而，之前的一些工作，例如 VideoBERT、ImageBERT、ALIGN和 CLIP，处理从互联网收集的大量数据并使用他们自己构建的数据集进行训练。

6141 1

综述 | 最新视觉-语言预训练综述

然而，之前的一些工作，例如 VideoBERT、ImageBERT、ALIGN和 CLIP，处理从互联网收集的大量数据并使用他们自己构建的数据集进行训练。

1.3K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

谷歌新探索，预测视频的人工智能——VideoBERT

BERT模型进军视频领域，看你和面就知会做蛋糕

如何让BERT拥有视觉感知能力？两种方式将视频信息注入BERT

7 Papers | AI写论文更近一步？联邦学习怎样与通信领域结合

跨界出圈 | 谈谈BERT跨模态预训练

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

多模态综述 | 一文了解Language-Vision预训练最新进展和新领域

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

【综述】基于Transformer的视频语言预训练

AI助力短视频创作

我监督我自己！Google AI发布用于视频的BERT模型 | 一周AI最火学术

谷歌多模态预训练框架：视频字幕、动作分类、问答全部实现SOTA

多模态大模型技术原理与实战(3)

我监督我自己！Google AI发布用于视频的BERT模型 | 一周AI最火学术

【综述专栏】视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述！！！

预训练语言模型（PLM）必读论文清单（附论文PDF、源码和模型链接）

预训练模型超全知识点梳理与面试必备高频FAQ

视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！

【综述专栏】最新视觉-语言预训练综述

综述 | 最新视觉-语言预训练综述

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐