首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开会or婚礼?全球最难的看图理解,腾讯AI得了第一

请回答这道选择题:

手捧玫瑰的女子,绅士风度的男子,停靠路边的马车,他们在做什么?

正确答案是D。

这道题不是出给人类的,而是出给AI的行为理解题。

它来自全球最难的图像理解题库之一——VCR(VisualCommonsense Reasoning)。类似读心术,希望AI像人一样,懂得图中人在正在做什么。

11月19日,腾讯微视视频理解团队在VCR打榜竞赛中,做了近27万道这样的选择题。

结果,他们提出了单模型BLENDer (BimodaL ENcoDer),在三个阶段的PK中,准确率达到了81.6%、86.4%、70.8%,一举超过谷歌等行业,甚至高于一些多模型的准确率,取得最高分,夺得冠军

对于你来说,这题很简单;但是,对AI,太南了。

说白了,AI很缺“某个动机导致某种行为”的逻辑关联数据。

BLENDer拿着百万部电影故事情节,来做训练,才有了高准确率。

回到最开始的那道题,AI训练和分析的关键是——什么样的场合,穿什么样的衣服。

女主,一袭古典风婚纱,男主,一身华丽燕尾服,再加上捧着玫瑰,手牵手。在“服装-场合”的逻辑关联分析下,答案自然是婚礼。

据说,VCR题库还有不少选择题,难住了AI。

要不来试试,看看BLENDer是否和你所想一致。

1、右侧男子举着火柴做什么?

A. 他在照亮地上的东西

B. 他在照亮房间

C. 他在念咒语

D. 他准备吹灭火柴

正确答案是 A。

AI解题在两个要素,眼睛往地上看,火柴又燃得旺,组合起来,他是想看清楚些地上的东西。

2、背影男子为什么要扛着布袋奔跑?

A. 他在找船舱

B. 他着急登船

C. 他在寻人

D. 他在找一些危险的人

正确答案是B。

AI分析的重点在识别男子前方的支架,那是船的骨干,男子着急地朝船跑,就是要赶着登船。

这个模型有什么用?

其实模型在视频推送、智能交互、信息无障碍(比如,为视障人士描述某条短视频正在发生什么)等方面,都可大有作为。

它在微视上也已经应用,对视频打上搞笑类、情感类、科普类、美妆类等不同标签,既可以推送给感兴趣的网友,也方便网友快速找到。

腾讯算法工程师说,现在只是一个小小的阶段性目标,还希望做更多创造性的工作。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201201A0596H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券