首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

比API更简单?Claude用鼠标教AI像人一样工作

Claude开启新纪元:用鼠标和键盘探索AI的边界

2024年,人机交互的边界被不断拓宽。从智能对话到流程自动化,AI的应用逐渐从“读懂文字”迈向“模仿动作”。而Anthropic推出的Claude “Computer Use”功能,让AI成为“像人一样用电脑”的先行者。

Claude的新尝试:一场关于未来生产力的实验

Claude的“Computer Use”功能让AI突破了传统API的限制。它通过截取电脑屏幕、模拟键盘和鼠标操作,完成多任务的自动化:

网页搜索与交互:寻找商品、完成订阅。

跨软件工作流:从网页中提取数据并整理至Excel。

办公效率任务:格式化文档、发送邮件、制作PPT。

游戏测试:分析逻辑、规划步骤,实现任务通关。

这项技术的最大亮点在于,它完全模拟了人类的操作逻辑,而不依赖开发复杂的API接口。这意味着,普通用户只需通过文字描述,就能轻松指挥AI完成复杂的电脑操作。

Claude的“三步走”:规划、执行与批判

在研究中,Claude被测试了从规划到执行,再到自我评估的完整任务链:

1.规划能力:制定清晰的任务步骤,例如打开浏览器、点击按钮等。

2.执行能力:将计划转化为鼠标和键盘的具体操作。

3.批判能力:在完成任务时检查进度,并纠正错误。

令人印象深刻的是,Claude不仅能在任务结束时回顾结果,还能在跨软件的场景中自如切换,例如从网页中复制信息并粘贴到文档。

但AI终究不是“完美人类”

尽管Claude展现了强大的生产力工具潜力,但它的表现并非无懈可击。

1. 容易犯低级错误

在一个简单的网页订阅任务中,Claude因为没有滚动页面,错过了关键按钮。类似的问题还包括替换文本时漏选内容,或将子弹点格式改为编号时操作失败。

2. 缺乏清晰的自我判断

研究人员发现,Claude在判断自身错误的原因时往往表现不佳。例如,当操作失败时,它可能基于错误假设得出不准确的解释。这种“自我批评机制”的短板,成为限制其发展的主要瓶颈之一。

3. 缺乏稳定性与安全保障

在一些敏感场景下,Claude的不稳定性可能引发严重后果。例如,它可能因界面误判导致错误决策,或因缺乏防御能力而成为恶意攻击的目标。这也提醒我们,AI与GUI结合的潜力虽大,但尚不成熟。

对于企业,这意味着什么?

对于企业而言,Claude的功能释放了一个诱人的可能性:通过简单的文字描述,完成任务的全流程自动化。这不仅能够提升效率,还能减少开发API接口的时间和成本。

但现阶段,这项技术仍存在以下局限:

1.行为不稳定:AI在GUI上的操作往往比API慢且容易出错,尤其在处理敏感任务时,可能引发不可预测的后果。

2.安全风险:GUI交互的开放性增加了AI被攻击的可能性,而这种攻击可能是人类轻易能察觉并规避的。

因此,Claude的GUI操作更多地适合探索与实验。它可以帮助团队快速验证新想法,但真正落地依旧需要通过API和微服务构建稳定的基础设施。

Claude的未来:从工具到伙伴的蜕变

Claude展现了AI作为生产力工具的广阔前景,但它的局限也提醒我们,技术发展需要时间与耐心。或许不久的将来,这类GUI Agent将像自动驾驶一样,成为日常生活和工作的必备助手。但在此之前,我们依旧需要用清醒的态度看待它的能力与边界。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O5MIfSFuMd-ZbOQ-4Mi8zyDw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券