腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
深度学习自然语言处理
专栏成员
举报
1035
文章
1347853
阅读量
164
订阅数
订阅专栏
申请加入专栏
全部文章(999+)
NLP 服务(293)
深度学习(232)
神经网络(222)
机器学习(207)
模型(190)
编程算法(181)
人工智能(135)
数据(128)
https(122)
网络安全(96)
论文(84)
性能(83)
其他(60)
python(43)
开源(43)
LLM(39)
测试(37)
linux(36)
github(34)
机器翻译(33)
腾讯云开发者社区(31)
知识图谱(29)
监督学习(28)
框架(28)
批量计算(26)
git(24)
强化学习(23)
数据结构(23)
优化(22)
系统(21)
pytorch(20)
http(19)
卷积神经网络(19)
tcp/ip(19)
css(18)
工作(18)
决策树(17)
图像处理(15)
数据分析(15)
ide(14)
迁移学习(14)
设计(14)
大数据(13)
nlp(13)
基础(12)
架构(12)
内存(12)
微信(11)
chatgpt(11)
token(11)
数学(11)
html(10)
图像识别(10)
学习方法(10)
gpt(10)
函数(10)
算法(10)
腾讯云测试服务(9)
LoRa(9)
云直播(8)
游戏(8)
编码(8)
代理(8)
工具(8)
tensorflow(7)
数据库(7)
网站(7)
推荐系统(7)
无监督学习(7)
机器人(7)
量化(7)
搜索(7)
网络(7)
效率(7)
sql(6)
缓存(6)
正则表达式(6)
教育(6)
agent(6)
视频(6)
语音识别(5)
数据挖掘(5)
go(5)
node.js(5)
apache(5)
文件存储(5)
processing(5)
meta(5)
openai(5)
word(5)
区块链(4)
bash(4)
api(4)
unix(4)
医疗(4)
存储(4)
nat(4)
nest(4)
data(4)
embedding(4)
function(4)
prompt(4)
self(4)
部署(4)
排序(4)
压缩(4)
自然语言处理(4)
java(3)
.net(3)
硬件开发(3)
搜索引擎(3)
bash 指令(3)
电商(3)
分布式(3)
自动化(3)
shell(3)
spark(3)
gui(3)
线性回归(3)
keras(3)
grep(3)
安全(3)
数据处理(3)
windows(3)
架构设计(3)
迁移(3)
联邦学习(3)
ls(3)
lstm(3)
memory(3)
model(3)
程序(3)
翻译(3)
华为(3)
解决方案(3)
路由(3)
苹果(3)
索引(3)
图表(3)
语法(3)
人脸识别(2)
官方文档(2)
数字货币(2)
自动驾驶(2)
javascript(2)
jquery ui(2)
android(2)
NAT 网关(2)
大数据处理套件 TBDS(2)
企业(2)
爬虫(2)
无人驾驶(2)
numpy(2)
信息流(2)
云计算(2)
对话机器人(2)
特征工程(2)
聚类算法(2)
隐私计算(2)
智能客服机器人(2)
entity(2)
error(2)
label(2)
mean(2)
network(2)
object(2)
sample(2)
sequence(2)
target(2)
tree(2)
变量(2)
服务(2)
集合(2)
技巧(2)
入门(2)
实践(2)
事件(2)
统计(2)
音频(2)
费用中心(1)
云点播(1)
对象存储(1)
负载均衡(1)
腾讯云学堂(1)
c 语言(1)
c++(1)
perl(1)
lua(1)
scala(1)
r 语言(1)
react(1)
json(1)
ajax(1)
oracle(1)
打包(1)
matlab(1)
中文分词(1)
apt-get(1)
mapreduce(1)
黑石物理服务器(1)
短视频(1)
访问管理(1)
SSL 证书(1)
数据加密服务(1)
文字识别(1)
内容理解(1)
金融(1)
kubernetes(1)
ssh(1)
面向对象编程(1)
opencv(1)
unity(1)
自动化测试(1)
二叉树(1)
单元测试(1)
kernel(1)
scikit-learn(1)
模式识别(1)
物联网(1)
微服务(1)
raft(1)
云课堂(1)
智能音乐(1)
基础教育(1)
alarm(1)
analysis(1)
apple(1)
bat(1)
behavior(1)
bit(1)
blender(1)
branch(1)
cat(1)
chat(1)
com(1)
decode(1)
distance(1)
dst(1)
encoding(1)
eval(1)
fixed(1)
glm(1)
google(1)
graph(1)
hidden(1)
history(1)
input(1)
it(1)
jupyter(1)
kaggle(1)
layer(1)
lift(1)
lisp(1)
lm(1)
marker(1)
microsoft(1)
modeling(1)
models(1)
next(1)
pdf(1)
perfect(1)
pivot(1)
plot(1)
position(1)
prediction(1)
ps(1)
random(1)
ssm(1)
state(1)
table(1)
tabular(1)
text(1)
title(1)
torch(1)
translation(1)
twitter(1)
video(1)
vr(1)
youtube(1)
编程(1)
表格(1)
并发(1)
程序设计(1)
创业(1)
动画(1)
二维码(1)
工程师(1)
公众号(1)
工作流(1)
行业(1)
集群(1)
兼容性(1)
接口(1)
开发(1)
开发者(1)
科技(1)
可视化(1)
连接(1)
漏洞(1)
面试(1)
配置(1)
数据存储(1)
数据科学(1)
思维导图(1)
通信(1)
协议(1)
研发(1)
异常(1)
语音(1)
重构(1)
城市交通(1)
搜索文章
搜索
搜索
关闭
每日论文速递 | Agent控制电脑!用多模态Agent玩荒野大镖客!
框架
论文
游戏
agent
代理
摘要:最近的研究已经证明了基础代理在特定任务或场景中的成功。然而,现有的代理无法在不同的场景中进行泛化,主要是由于它们的观察和行动空间的多样性以及语义差距,或者依赖于特定任务的资源。在这项工作中,我们提出了通用计算机控制(GCC)设置:构建基础代理,它们可以通过仅以计算机的屏幕图像(可能还包括音频)作为输入,并产生键盘和鼠标操作作为输出,类似于人机交互,从而掌握任何计算机任务。为了针对GCC,我们提出了Cradle,一个具有强大推理能力的代理框架,包括自我反思、任务推理和技能培养,以确保在各种任务中具有泛化能力和自我提升能力。为了展示Cradle的能力,我们将其部署在复杂的AAA游戏《荒野大镖客II》,作为朝着GCC迈出的一次初步尝试,这是一个具有挑战性的目标。我们的代理可以在这款复杂的AAA游戏中按照主线剧情进行,并完成真实任务,几乎不依赖于先前的知识和应用特定资源。
zenRRan
2024-03-14
240
0
每日论文速递 | Agent-Pro:通过策略级反思和优化学习进化
游戏
agent
代理
论文
优化
摘要:大型语言模型对不同的任务表现出强大的解决问题的能力。然而,大多数基于LLM的代理都被设计为具有复杂提示工程的特定任务求解器,而不是能够通过交互学习和进化的代理。这些任务求解器需要手动制作的提示来告知任务规则并调节LLM行为,固有地使其无法解决复杂的动态场景,例如,大型互动游戏。有鉴于此,我们提出了Agent-Pro:一个基于LLM的Agent,具有策略级反射和优化,可以从交互式体验中学习丰富的专业知识,并逐步提升其行为策略。具体而言,它涉及到一个动态的信念生成和反思过程的政策演变。Agent-Pro不是行动层面的反思,而是迭代地反思过去的轨迹和信念,微调其非理性信念,以制定更好的政策。此外,深度优先搜索用于策略优化,确保策略收益的持续增强。代理专业评估两个游戏:二十一点和德州扑克,优于香草LLM和专业模型。我们的研究结果表明,Agent-Pro可以在复杂和动态的场景中学习和发展,这也有利于许多基于LLM的应用程序。
zenRRan
2024-03-02
311
0
RL 究竟是如何与 LLM 做结合的?
游戏
机器人
量化
模型
LLM
强化学习(Reinforcement Learning, RL)的核心概念可简单概括为:一个机器人(Agent)在看到了一些信息(Observation)后,自己做出一个决策(Action),随即根据采取决策后得到的反馈(Reward)来进行自我学习(Learning)的过程。
zenRRan
2024-01-05
381
0
符尧最新研究:大语言模型玩砍价游戏?技巧水涨船高!
游戏
代理
技巧
论文
模型
若干年前,AlphaGo Zero用两个AI代理切磋围棋技艺,打败了人类。今早,符尧的一篇论文刷新了我的认知:让大语言模型相互对弈,再加一个评论家提供建设性意见,提高菜市场砍价技巧!这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF),即来自AI反馈的上下文学习,使用评论家的反馈以及前几轮对话历史作为上下文。
zenRRan
2023-08-22
333
0
官宣!网易将培养30名游戏开发人才,费用全免!
游戏
unity
网易游戏开发培训营 printf("玩游戏不如自己做游戏"); 来网易,大佬免费教你做游戏开发! 0基础3天入门Unity,制作超炫酷游戏小demo 网易官方认证 原价值¥599课程 限时扫码 I 0元免费报名 3重福利,限量免费领 01 最新大厂面试真题 02 8G游戏开发学习资料 03 5G游戏开发工程文件 3天实现完美蜕变 # 零基础学员学后作品 # 3天直播教学安排 D1 初始Unity与脚本编程 D2 《滚球跑酷》游戏基本功能 D3 《滚球跑酷》游戏完善与美化 网易官
zenRRan
2022-09-22
509
0
互联网行业,回暖了?
游戏
电商
云点播
每天给你送来NLP技术干货! ---- 源 | 36氪 经过这一年的调整,中国互联网企业或许才算得上真正成熟起来。 有统计显示,目前中国互联网公司股价已经缓慢升至 3 个月以来的新高。 反映中概股表现的纳斯达克中国金龙指数在近期连涨三天,自5月11日以来更是累计上涨逾40%。 利好的信号是多方面的,重新开始发放游戏版号是最新的一个。曾经一月一次的游戏版号发放自 2021 年 7 月起悄然停止。直到 10 个月以后的 2022 年 4 月,国家新闻出版署才重启版号发放,允许超过 40 款游戏上架销售。两个
zenRRan
2022-06-16
711
0
大规模裁员后,计算机会成为下一个土木吗?
游戏
每天给你送来NLP技术干货! ---- 整理:DASOU 最近互联网裁员,有网友热议:2022年大规模裁员后,计算机专业会不会成为下一个土木? 有个匿名网友写了这样一个回答,我认为挺好的,想跟大家分享一下。 https://www.zhihu.com/question/521800974/answer/2443221482 我学了10年计算机现在还在找工作,我爸干了一辈子土木现在也在找工作。我觉得计算机不会成为下一个土木。至于是不是49年入国军,我觉得楼主的眼光可以看长远一点,就是你这辈子到底想从事什么职
zenRRan
2022-06-10
812
0
3招打破机器学习工程师的边界
机器学习
深度学习
编程算法
游戏
http
对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。
zenRRan
2018-10-24
556
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档