首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

能够指导你打游戏的视觉(GUI)AI智能体来了!

你有没有想过用AI智能体帮你自动完成一些图形用户界面(GUI)的操作,比如在网页上填写表单,或者如何操纵应用,甚至告诉你如何打游戏?!

今天,我要向你介绍的就是这样的AI智能助手,它的名字叫做CogAgent

CogAgent是一个基于180亿参数规模的视觉语言模型(VLM),专注于GUI图形交互界面的理解和导航,最大可处理1120×1120像素的分辨率图像。

CogAgent不仅可以理解图像中的文字、图标、按钮等元素,还可以根据用户的指令,执行相应的GUI操作,比如点击、滑动、输入等。

下图是用户输入“你能指导我搜索“CVPR2023最佳论文”的步骤吗?” 然后AI智能体给出的方案。

下图是用户输入“切换为日间模式”AI智能体给出的方案

下图是对图片内容的识别和对路线的规划

甚至能够理解游戏页面信息,然后知道如何去操作。下图是用户询问如何“如何前往传送点”AI智能体给出的指导建议

CogAgent的特点

CogAgent是由清华大学的研究团队开发的,基于他们之前的CogVLM模型进行改进。

CogVLM是一个强大的开源视觉语言模型,拥有100亿的视觉参数和70亿的语言参数,支持490×490像素的分辨率图像的理解和多轮对话。

CogVLM在10个经典的跨模态基准上取得了最先进的性能,包括NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC。

CogAgent在CogVLM的基础上,增加了11亿的视觉参数,提高了图像的输入分辨率,从而能够识别更小的页面元素和文本。CogAgent还增加了GUI图形交互界面的Agent能力,可以根据用户的自然语言指令,生成相应的GUI操作序列。

CogAgent在9个经典的跨模态基准上,也取得了最先进的通用性能,包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent在GUI操作数据集上,包括AITW和Mind2Web,也显著超越了现有的模型。

官方提供了一个演示地址,可以体验。

CogAgent展望

CogAgent的应用场景非常广泛,可以涵盖各种GUI图形交互界面,比如网页、手机、电脑、平板等。这也给我们带来一个启示,未来AI智能体是个重要的发展方向,智能体协助人类进行操作能够大大提高效率!这在产品说明,商品介绍,设备操作,给老人讲解等方面有很大的前景。

代码地址:

https://github.com/THUDM/CogVLM?tab=readme-ov-file

论文地址:

https://arxiv.org/pdf/2312.08914.pdf

体验网址:

http://36.103.203.44:7861/

AI变革往期回顾:

1、AI大模型可达到OCR水平了!旷视Vary:开源、支持中英文!

2、现实 or 虚拟?Midjourney推出V6版本,生成超清晰图片,真假难辨

3、目前世界最好的小语言AI模型:Phi-2!可部署在手机使用!

4、帮你构建私人“ChatGPT”!开源、可本地、支持多种文档查询的私人AI构建程序:Anything-llm

5、AI“同声传译”新进展!Google发布,无监督,语音识别:Translatotron 3!

6、网易(TTS)EmotiVoice:开源语音合成,支持2000多音色

好了,今天的内容就分享到这里希望你们喜欢!欢迎关注、点赞和分享!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OsqU97BfD5dGk2uyb7nU55EA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券