首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软重磅推出的基于ChatGPT的AI视觉交互系统Visual ChatGPT

就在昨天微软官方在Github开源了一个重量级的ChatGPT AI交互应用Visual ChatGPT。该应用短短一天在Github就达到了4000星。

Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像,以及动态对图像进行处理。

该系统的已经发表对应的论文,支持从arxiv下载。

系统架构

Visual ChatGPT架构由用户查询部分(User Query)、交互管理部分(Prompt Manger)、视觉基础模型(Visual Foundation Models,VFM)、调用ChatGpt API和迭代交互部分(Iterative Reasoning),最后是用户输出(Outputs)部分

如图1所示,用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花,然后逐步使其像卡通一样”。

在交互管理器的帮助下,Visual ChatGPT 开始了相关视觉基础模型的执行链。 在示例条件下,它首先应用深度估计模型来检测深度信息,然后利用深度到图像模型生成带有深度信息的红色花朵图形,最后利用基于稳定扩散模型的风格迁移VFM来改变这个形象的风格变成了卡通。

在上述管道中,交互管理器作为ChatGPT的调度器,提供视觉格式类型并记录信息转换过程。

最后,当Visual ChatGPT从交互管理器获得“卡通”提示时,它将结束执行管道并显示最终结果。

整个系统流程是

1) 明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式;

2)将不同的视觉信息,例如pngimages,深度图像和mask矩阵,转换为语言格式以帮助ChatGPT理解;

3) 处理不同视觉基础模型的历史、优先级和冲突。

在交互管理器的帮助下,ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈,直到它满足用户的要求或达到结束条件。

VFM

在该项目中总共设计了22个不同的VFM来进行图像数据的处理,它们之间存在内在关联和分工,以便仪器协同交互管理器来完成任务;

安装部署

该系统为方便以Python语言开发,其中依赖torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等基层类库应用。需要python 3.8和coda环境为基础

首先clone 项目

用coda创建一个新环境

激活该环境

安装依赖组件

用附带脚本下载视觉基础模型

填写openai账号的用户key值

设置图像保存目录

运行系统

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230311A01HPK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券