首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军,领衔图像描述生成技术

在这个数据集上,共有物体检测 (Detection)、人体关键点检测 (Keypoints)、图像分割 (Stuff)、图像描述生成 (Captions) 四个类别的比赛任务。...其中图像描述生成任务 (Captions),需要同时对图像与文本进行深度的理解与分析,相比其他三个任务更具有挑战性,因此也吸引了更多的工业界(Google,IBM,Microsoft)以及国际顶尖院校(...经过充分的训练,腾讯 AI Lab 研发的图像描述生成模型在微软 MS COCO 的 Captions 任务上排名第一,超过了微软、谷歌、IBM 等科技公司。 [1]. O. Vinyals, A....Zweig,「From Captions to Visual Concepts and Back」, CVPR 2015. [6]. K. Xu, J. Ba, R. Kiros, K.

1.1K60
您找到你想要的搜索结果了吗?
是的
没有找到

业界 | 腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军

在这个数据集上,共有物体检测 (Detection)、人体关键点检测 (Keypoints)、图像分割 (Stuff)、图像描述生成 (Captions) 四个类别的比赛任务。...其中图像描述生成任务 (Captions),需要同时对图像与文本进行深度的理解与分析,相比其他三个任务更具有挑战性,因此也吸引了更多的工业界(Google,IBM,Microsoft)以及国际顶尖院校(...最终,通过充分的训练,腾讯 AI Lab 研发的图像描述生成模型在微软 MS COCO 的 Captions 任务上排名第一,超过了微软、谷歌、IBM 等科技公司。 ? [1]. O....Zweig,「From Captions to Visual Concepts and Back」, CVPR 2015. [6]. K. Xu, J. Ba, R. Kiros, K.

594120

【干货】让遥感图像活起来:遥感图像描述生成的模型与数据集探索

表2:多模态方法在UCM-captions数据集上的结果。 ? 表3:多模态方法在Sydney-captions数据集上的结果。 ? 表4:多模态方法在RSICD数据集上的结果。 ?...图5:(a)在UCM-captions数据集上的使用RNN的多模态方法的结果。(b)在Sydney-captions数据集上使用RNN的多模态方法的度量。...(d)在UCM-captions数据集上的使用LSTM的多模态方法的结果。(e)在Sydney-captions数据集上使用LSTM的多模态方法的度量。...表7:在UCM-captions数据集上使用CNNs的基于注意力方法的结果。 ? 表8:在Sydney-captions数据集上使用CNNs的基于注意力方法的结果。 ?...表11:对UCM-captions数据集的主观评价结果。 ? 表12:对Sydney-captions数据集的主观评价结果。 ? 表13:对RSICD数据集的主观评价结果。

4.3K60

读完 DALL-E 论文,我们发现大型数据集也有平替版

虽然 OpenAI 表示,他们的训练数据集尚不会公开,但他们透露,数据集中包括 Google 发表的 Conceptual Captions 数据集。...大型图文对数据集 mini 替代版 Conceptual Captions 数据集,由谷歌在 ACL 2018 发表的论文《Conceptual Captions: A Cleaned, Hypernymed...首先,团队提出了一个新的图像标题注释数据集——Conceptual Captions,它包含的图像比 MS-COCO 数据集多一个数量级,共包括约 330 万图像和描述对。...Conceptual Captions pipeline 过滤步骤示例和最终输出 一:基于图像的过滤 算法会根据编码格式、大小、纵横比和令人反感的内容过滤图像。...不如先从 Conceptual Captions 数据集开始吧! 访问 https://hyper.ai/datasets 或点击阅读原文,还可获取更多数据集哦!

1.2K20

谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

最近,谷歌在人机交互顶级会议ACM CHI(Conference on Human Factors in Computing Systems)上展示了一个系统Visual Captions,介绍了远程会议中的一个全新视觉解决方案...论文链接:https://research.google/pubs/pub52074/ 代码链接:https://github.com/google/archat Visual Captions系统基于一个微调后的大型语言模型...在用户调研中,研究人员邀请了实验室内的26位参与者,与实验室外的10位参与者对系统进行评估,超过80%的用户基本都认同Video Captions可以在各种场景下能提供有用、有意义的视觉推荐,并可以提升交流体验...在系统工作流程中,Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果,然后提供推荐的视觉效果。...Visual Captions的系统工作流 Visual Captions在推荐视觉效果时提供三个级别的可选主动性: 自动显示(高主动性):系统自主搜索并向所有会议参与者公开显示视觉效果,无需用户交互。

17120
领券