哥伦比亚大学机器视觉实验开源了一个人工智能图像学习模型ViperGPT,该模型可与自动识别解决针对图像问题和推断,并且能自动生成Python代码来,解释整个识别和问题推断的过程,项目已经公开其研究的论文和公开了一些推理视频,也公布了源代码的仓库地址(代码还待push)。
根据提提供的预览版的论文和网站上实例动画:
问题1:针对图上每个孩子应该吃多少松饼才公平的问题?
模型生成一段python代码,代码先图像中的到松饼并且计数(注意他也识别了两个孩子已经吃到嘴边的松饼)len(muffin_patches)=8。
然后识别孩子计数为len(kid_patches)=2。
然后最后给出答案=8/2=4
问:2:图像上前面的披萨?
模型生成python代码,并识别了图像中的两块披萨。
计算两块披萨在图像中的深度一个为0.7,另一块为0.3
所以前面的一块为0.3对应的披萨,输出这个块披萨的图像为答案。
。。。
根据论文和视频实例:
ViperGPT 可以进行逻辑运算,直接执行Python代码。
可以进行空间理解。
可以访问大型语言模型的知识。
一致的推理回答了类似的问题。
计数和除法,全部使用 Python。
涉及属性推断,比如形状,颜色等。
可以进行关系的推理。
进行否定判定,注意他的否定判定是程序性的,而不是神经性的。
领取专属 10元无门槛券
私享最新 技术干货