首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验

IT之家 1 月 23 日消息,北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣城“自主操作电脑的多模态 Agent 再升级”。

据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测,目前最新推出「深度思考」模式、增加专用于做逻辑推理和代码生成的功能、并提供了对 Windows 系统的支持。

IT之家从智谱官方获悉,GLM-PC 具备如下能力:

代码生成与逻辑执行

规划:支持综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

循环执行:规划阶段结束后,支持启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预

长思考能力:支持实时调整、反思修正和自我纠错,持续优化解决方案。具体表现为:流程因外部因素中断时,可重构逻辑路径;遇到信息缺失时,可主动与用户进行交互,通过提问来完善任务执行方案

图像与 GUI 认知

GUI 图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑

用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作

图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标

多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnGt-93nnmuiJj3aoo5G5mkA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券