深度学习自然语言处理-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏成员

1035

文章

1347853

阅读量

164

订阅数

每日论文速递 | Agent控制电脑！用多模态Agent玩荒野大镖客！

框架论文游戏 agent 代理

摘要：最近的研究已经证明了基础代理在特定任务或场景中的成功。然而，现有的代理无法在不同的场景中进行泛化，主要是由于它们的观察和行动空间的多样性以及语义差距，或者依赖于特定任务的资源。在这项工作中，我们提出了通用计算机控制（GCC）设置：构建基础代理，它们可以通过仅以计算机的屏幕图像（可能还包括音频）作为输入，并产生键盘和鼠标操作作为输出，类似于人机交互，从而掌握任何计算机任务。为了针对GCC，我们提出了Cradle，一个具有强大推理能力的代理框架，包括自我反思、任务推理和技能培养，以确保在各种任务中具有泛化能力和自我提升能力。为了展示Cradle的能力，我们将其部署在复杂的AAA游戏《荒野大镖客II》，作为朝着GCC迈出的一次初步尝试，这是一个具有挑战性的目标。我们的代理可以在这款复杂的AAA游戏中按照主线剧情进行，并完成真实任务，几乎不依赖于先前的知识和应用特定资源。

2024-03-14

2400

每日论文速递 | Agent-Pro：通过策略级反思和优化学习进化

游戏 agent 代理论文优化

摘要：大型语言模型对不同的任务表现出强大的解决问题的能力。然而，大多数基于LLM的代理都被设计为具有复杂提示工程的特定任务求解器，而不是能够通过交互学习和进化的代理。这些任务求解器需要手动制作的提示来告知任务规则并调节LLM行为，固有地使其无法解决复杂的动态场景，例如，大型互动游戏。有鉴于此，我们提出了Agent-Pro：一个基于LLM的Agent，具有策略级反射和优化，可以从交互式体验中学习丰富的专业知识，并逐步提升其行为策略。具体而言，它涉及到一个动态的信念生成和反思过程的政策演变。Agent-Pro不是行动层面的反思，而是迭代地反思过去的轨迹和信念，微调其非理性信念，以制定更好的政策。此外，深度优先搜索用于策略优化，确保策略收益的持续增强。代理专业评估两个游戏：二十一点和德州扑克，优于香草LLM和专业模型。我们的研究结果表明，Agent-Pro可以在复杂和动态的场景中学习和发展，这也有利于许多基于LLM的应用程序。

2024-03-02

3110

RL 究竟是如何与 LLM 做结合的？

游戏机器人量化模型 LLM

强化学习（Reinforcement Learning, RL）的核心概念可简单概括为：一个机器人（Agent）在看到了一些信息（Observation）后，自己做出一个决策（Action），随即根据采取决策后得到的反馈（Reward）来进行自我学习（Learning）的过程。

2024-01-05

3810

符尧最新研究：大语言模型玩砍价游戏？技巧水涨船高！

游戏代理技巧论文模型

若干年前，AlphaGo Zero用两个AI代理切磋围棋技艺，打败了人类。今早，符尧的一篇论文刷新了我的认知：让大语言模型相互对弈，再加一个评论家提供建设性意见，提高菜市场砍价技巧！这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF)，即来自AI反馈的上下文学习，使用评论家的反馈以及前几轮对话历史作为上下文。

2023-08-22

3330

官宣！网易将培养30名游戏开发人才，费用全免！

网易游戏开发培训营 printf("玩游戏不如自己做游戏"); 来网易，大佬免费教你做游戏开发！ 0基础3天入门Unity，制作超炫酷游戏小demo 网易官方认证原价值￥599课程限时扫码 I 0元免费报名 3重福利，限量免费领 01 最新大厂面试真题 02 8G游戏开发学习资料 03 5G游戏开发工程文件 3天实现完美蜕变 # 零基础学员学后作品 # 3天直播教学安排 D1 初始Unity与脚本编程 D2 《滚球跑酷》游戏基本功能 D3 《滚球跑酷》游戏完善与美化网易官

2022-09-22

5090

互联网行业，回暖了？

游戏电商云点播

每天给你送来NLP技术干货！ ---- 源 | 36氪经过这一年的调整，中国互联网企业或许才算得上真正成熟起来。有统计显示，目前中国互联网公司股价已经缓慢升至 3 个月以来的新高。反映中概股表现的纳斯达克中国金龙指数在近期连涨三天，自5月11日以来更是累计上涨逾40%。利好的信号是多方面的，重新开始发放游戏版号是最新的一个。曾经一月一次的游戏版号发放自 2021 年 7 月起悄然停止。直到 10 个月以后的 2022 年 4 月，国家新闻出版署才重启版号发放，允许超过 40 款游戏上架销售。两个

2022-06-16

7110

大规模裁员后，计算机会成为下一个土木吗？

每天给你送来NLP技术干货！ ---- 整理：DASOU 最近互联网裁员，有网友热议：2022年大规模裁员后，计算机专业会不会成为下一个土木？有个匿名网友写了这样一个回答，我认为挺好的，想跟大家分享一下。 https://www.zhihu.com/question/521800974/answer/2443221482 我学了10年计算机现在还在找工作，我爸干了一辈子土木现在也在找工作。我觉得计算机不会成为下一个土木。至于是不是49年入国军，我觉得楼主的眼光可以看长远一点，就是你这辈子到底想从事什么职

2022-06-10

8120

3招打破机器学习工程师的边界

机器学习深度学习编程算法游戏 http

对，就是数学。掌握了数学这个机器学习的底层基础，不仅可以加深对算法的理解，还能在模型优化阶段更加游刃有余。

2018-10-24

5560

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态