首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ViperGPT:哥伦比亚大学的AI图像推断和解答模型

哥伦比亚大学机器视觉实验开源了一个人工智能图像学习模型ViperGPT,该模型可与自动识别解决针对图像问题和推断,并且能自动生成Python代码来,解释整个识别和问题推断的过程,项目已经公开其研究的论文和公开了一些推理视频,也公布了源代码的仓库地址(代码还待push)。

根据提提供的预览版的论文和网站上实例动画:

问题1:针对图上每个孩子应该吃多少松饼才公平的问题?

模型生成一段python代码,代码先图像中的到松饼并且计数(注意他也识别了两个孩子已经吃到嘴边的松饼)len(muffin_patches)=8。

然后识别孩子计数为len(kid_patches)=2。

然后最后给出答案=8/2=4

问:2:图像上前面的披萨?

模型生成python代码,并识别了图像中的两块披萨。

计算两块披萨在图像中的深度一个为0.7,另一块为0.3

所以前面的一块为0.3对应的披萨,输出这个块披萨的图像为答案。

。。。

根据论文和视频实例:

ViperGPT 可以进行逻辑运算,直接执行Python代码。

可以进行空间理解。

可以访问大型语言模型的知识。

一致的推理回答了类似的问题。

计数和除法,全部使用 Python。

涉及属性推断,比如形状,颜色等。

可以进行关系的推理。

进行否定判定,注意他的否定判定是程序性的,而不是神经性的。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230320A07MR800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券