图像理解大模型CogAgent整合包
CogAgent是一个基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数。
CogAgent-18B在9个经典的跨模态基准测试中实现了最先进的全能性能,包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。
除了CogVLM已有的所有功能(视觉多轮对话,视觉定位)之外,CogAgent:
支持更高分辨率的视觉输入和对话式问答。它支持超高分辨率的图像输入,达到1120x1120。
拥有视觉Agent的能力,能够在任何图形用户界面截图上,为任何给定任务返回一个计划,下一步行动,以及带有坐标的特定操作。
增强了与图形用户界面相关的问答能力,使其能够处理关于任何图形用户界面截图的问题,例如网页、PC应用、移动应用等。
通过改进预训练和微调,提高了OCR相关任务的能力。
注意电脑配置如下:
windows 10/11
16G显存以上英伟达显卡
解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行
浏览器访问http://localhost:8501/,即可在浏览器使用
领取专属 10元无门槛券
私享最新 技术干货