首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏作者
1012
文章
1184136
阅读量
161
订阅数
每日论文速递 | Agent控制电脑!用多模态Agent玩荒野大镖客!
摘要:最近的研究已经证明了基础代理在特定任务或场景中的成功。然而,现有的代理无法在不同的场景中进行泛化,主要是由于它们的观察和行动空间的多样性以及语义差距,或者依赖于特定任务的资源。在这项工作中,我们提出了通用计算机控制(GCC)设置:构建基础代理,它们可以通过仅以计算机的屏幕图像(可能还包括音频)作为输入,并产生键盘和鼠标操作作为输出,类似于人机交互,从而掌握任何计算机任务。为了针对GCC,我们提出了Cradle,一个具有强大推理能力的代理框架,包括自我反思、任务推理和技能培养,以确保在各种任务中具有泛化能力和自我提升能力。为了展示Cradle的能力,我们将其部署在复杂的AAA游戏《荒野大镖客II》,作为朝着GCC迈出的一次初步尝试,这是一个具有挑战性的目标。我们的代理可以在这款复杂的AAA游戏中按照主线剧情进行,并完成真实任务,几乎不依赖于先前的知识和应用特定资源。
zenRRan
2024-03-14
890
每日论文速递 | Agent-Pro:通过策略级反思和优化学习进化
摘要:大型语言模型对不同的任务表现出强大的解决问题的能力。然而,大多数基于LLM的代理都被设计为具有复杂提示工程的特定任务求解器,而不是能够通过交互学习和进化的代理。这些任务求解器需要手动制作的提示来告知任务规则并调节LLM行为,固有地使其无法解决复杂的动态场景,例如,大型互动游戏。有鉴于此,我们提出了Agent-Pro:一个基于LLM的Agent,具有策略级反射和优化,可以从交互式体验中学习丰富的专业知识,并逐步提升其行为策略。具体而言,它涉及到一个动态的信念生成和反思过程的政策演变。Agent-Pro不是行动层面的反思,而是迭代地反思过去的轨迹和信念,微调其非理性信念,以制定更好的政策。此外,深度优先搜索用于策略优化,确保策略收益的持续增强。代理专业评估两个游戏:二十一点和德州扑克,优于香草LLM和专业模型。我们的研究结果表明,Agent-Pro可以在复杂和动态的场景中学习和发展,这也有利于许多基于LLM的应用程序。
zenRRan
2024-03-02
1250
RL 究竟是如何与 LLM 做结合的?
强化学习(Reinforcement Learning, RL)的核心概念可简单概括为:一个机器人(Agent)在看到了一些信息(Observation)后,自己做出一个决策(Action),随即根据采取决策后得到的反馈(Reward)来进行自我学习(Learning)的过程。
zenRRan
2024-01-05
1530
符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!
若干年前,AlphaGo Zero用两个AI代理切磋围棋技艺,打败了人类。今早,符尧的一篇论文刷新了我的认知:让大语言模型相互对弈,再加一个评论家提供建设性意见,提高菜市场砍价技巧!这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF),即来自AI反馈的上下文学习,使用评论家的反馈以及前几轮对话历史作为上下文。
zenRRan
2023-08-22
2840
官宣!网易将培养30名游戏开发人才,费用全免!
网易游戏开发培训营 printf("玩游戏不如自己做游戏"); 来网易,大佬免费教你做游戏开发! 0基础3天入门Unity,制作超炫酷游戏小demo 网易官方认证 原价值¥599课程 限时扫码 I 0元免费报名 3重福利,限量免费领 01 最新大厂面试真题  02 8G游戏开发学习资料 03 5G游戏开发工程文件 3天实现完美蜕变 # 零基础学员学后作品 # 3天直播教学安排 D1  初始Unity与脚本编程 D2 《滚球跑酷》游戏基本功能 D3 《滚球跑酷》游戏完善与美化 网易官
zenRRan
2022-09-22
4970
互联网行业,回暖了?
每天给你送来NLP技术干货! ---- 源 | 36氪 经过这一年的调整,中国互联网企业或许才算得上真正成熟起来。 有统计显示,目前中国互联网公司股价已经缓慢升至 3 个月以来的新高。 反映中概股表现的纳斯达克中国金龙指数在近期连涨三天,自5月11日以来更是累计上涨逾40%。 利好的信号是多方面的,重新开始发放游戏版号是最新的一个。曾经一月一次的游戏版号发放自 2021 年 7 月起悄然停止。直到 10 个月以后的 2022 年 4 月,国家新闻出版署才重启版号发放,允许超过 40 款游戏上架销售。两个
zenRRan
2022-06-16
6790
大规模裁员后,计算机会成为下一个土木吗?
每天给你送来NLP技术干货! ---- 整理:DASOU 最近互联网裁员,有网友热议:2022年大规模裁员后,计算机专业会不会成为下一个土木? 有个匿名网友写了这样一个回答,我认为挺好的,想跟大家分享一下。 https://www.zhihu.com/question/521800974/answer/2443221482 我学了10年计算机现在还在找工作,我爸干了一辈子土木现在也在找工作。我觉得计算机不会成为下一个土木。至于是不是49年入国军,我觉得楼主的眼光可以看长远一点,就是你这辈子到底想从事什么职
zenRRan
2022-06-10
7590
3招打破机器学习工程师的边界
对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。
zenRRan
2018-10-24
5380
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档