首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

图像理解大模型CogAgent整合包

图像理解大模型CogAgent整合包

CogAgent是一个基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数。

CogAgent-18B在9个经典的跨模态基准测试中实现了最先进的全能性能,包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。

除了CogVLM已有的所有功能(视觉多轮对话,视觉定位)之外,CogAgent:

支持更高分辨率的视觉输入和对话式问答。它支持超高分辨率的图像输入,达到1120x1120。

拥有视觉Agent的能力,能够在任何图形用户界面截图上,为任何给定任务返回一个计划,下一步行动,以及带有坐标的特定操作。

增强了与图形用户界面相关的问答能力,使其能够处理关于任何图形用户界面截图的问题,例如网页、PC应用、移动应用等。

通过改进预训练和微调,提高了OCR相关任务的能力。

注意电脑配置如下:

windows 10/11

16G显存以上英伟达显卡

解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行

浏览器访问http://localhost:8501/,即可在浏览器使用

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Olyr2nz0YccsBe4O6kxF9Kvw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券