能够指导你打游戏的视觉（GUI）AI智能体来了！

文章来源：企鹅号 - AI变革指南

你有没有想过用AI智能体帮你自动完成一些图形用户界面（GUI）的操作，比如在网页上填写表单，或者如何操纵应用，甚至告诉你如何打游戏？！

今天，我要向你介绍的就是这样的AI智能助手，它的名字叫做CogAgent

CogAgent是一个基于180亿参数规模的视觉语言模型（VLM），专注于GUI图形交互界面的理解和导航，最大可处理1120×1120像素的分辨率图像。

CogAgent不仅可以理解图像中的文字、图标、按钮等元素，还可以根据用户的指令，执行相应的GUI操作，比如点击、滑动、输入等。

下图是用户输入“你能指导我搜索“CVPR2023最佳论文”的步骤吗?” 然后AI智能体给出的方案。

下图是用户输入“切换为日间模式”AI智能体给出的方案

下图是对图片内容的识别和对路线的规划

甚至能够理解游戏页面信息，然后知道如何去操作。下图是用户询问如何“如何前往传送点”AI智能体给出的指导建议

CogAgent的特点

CogAgent是由清华大学的研究团队开发的，基于他们之前的CogVLM模型进行改进。

CogVLM是一个强大的开源视觉语言模型，拥有100亿的视觉参数和70亿的语言参数，支持490×490像素的分辨率图像的理解和多轮对话。

CogVLM在10个经典的跨模态基准上取得了最先进的性能，包括NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC。

CogAgent在CogVLM的基础上，增加了11亿的视觉参数，提高了图像的输入分辨率，从而能够识别更小的页面元素和文本。CogAgent还增加了GUI图形交互界面的Agent能力，可以根据用户的自然语言指令，生成相应的GUI操作序列。

CogAgent在9个经典的跨模态基准上，也取得了最先进的通用性能，包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent在GUI操作数据集上，包括AITW和Mind2Web，也显著超越了现有的模型。

官方提供了一个演示地址，可以体验。

CogAgent展望

CogAgent的应用场景非常广泛，可以涵盖各种GUI图形交互界面，比如网页、手机、电脑、平板等。这也给我们带来一个启示，未来AI智能体是个重要的发展方向，智能体协助人类进行操作能够大大提高效率！这在产品说明，商品介绍，设备操作，给老人讲解等方面有很大的前景。

代码地址：

https://github.com/THUDM/CogVLM?tab=readme-ov-file

论文地址：

https://arxiv.org/pdf/2312.08914.pdf

体验网址：

http://36.103.203.44:7861/

AI变革往期回顾：

1、AI大模型可达到OCR水平了！旷视Vary：开源、支持中英文！

2、现实 or 虚拟？Midjourney推出V6版本，生成超清晰图片，真假难辨

3、目前世界最好的小语言AI模型：Phi-2！可部署在手机使用！

4、帮你构建私人“ChatGPT”！开源、可本地、支持多种文档查询的私人AI构建程序：Anything-llm

5、AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

6、网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

好了，今天的内容就分享到这里希望你们喜欢！欢迎关注、点赞和分享！

相关快讯