腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
数据派THU
专栏成员
举报
2149
文章
2150276
阅读量
191
订阅数
订阅专栏
申请加入专栏
全部文章(999+)
神经网络(473)
机器学习(455)
深度学习(452)
人工智能(371)
数据(352)
编程算法(327)
模型(287)
大数据(283)
https(258)
网络安全(249)
python(154)
NLP 服务(126)
数据分析(121)
算法(83)
其他(78)
开源(75)
论文(68)
安全(65)
函数(65)
强化学习(63)
数据库(62)
数据处理(62)
github(61)
工作(58)
系统(58)
图像处理(53)
网络(53)
监督学习(48)
腾讯云测试服务(47)
机器人(46)
企业(45)
设计(44)
优化(42)
sql(41)
git(39)
变量(37)
pytorch(36)
基础(34)
开发(34)
http(33)
框架(33)
统计(31)
数据安全(30)
数据结构(30)
翻译(30)
tensorflow(29)
数据可视化(29)
学习方法(29)
存储(28)
chatgpt(28)
软件(28)
卷积神经网络(27)
工具(27)
数据科学(26)
性能(26)
数据挖掘(24)
线性回归(24)
tcp/ip(24)
测试(24)
网站(23)
自动化(22)
实践(22)
游戏(21)
腾讯云开发者社区(21)
架构(21)
视频(21)
连接(20)
决策树(19)
可视化(19)
知识图谱(18)
图像识别(18)
服务(18)
区块链(17)
html(17)
搜索(17)
api(16)
linux(16)
医疗(16)
推荐系统(16)
物联网(16)
自动驾驶(15)
numpy(15)
特征工程(15)
行业(15)
云计算(14)
对象(14)
管理(14)
无人驾驶(13)
opencv(13)
gpt(13)
计算机(13)
数学(13)
原理(13)
css(12)
分布式(12)
keras(12)
迁移学习(12)
事件(12)
人脸识别(11)
机器翻译(11)
编码(11)
代理(11)
c++(10)
硬件开发(10)
matlab(10)
apache(10)
微信(10)
5g(10)
产品(10)
解决方案(10)
ide(9)
批量计算(9)
编程(9)
程序(9)
集合(9)
教程(9)
科技(9)
量化(9)
java(8)
javascript(8)
go(8)
r 语言(8)
文件存储(8)
缓存(8)
微服务(8)
汽车(8)
内存(8)
渲染(7)
爬虫(7)
scikit-learn(7)
聚类算法(7)
pandas(7)
研发(7)
异常(7)
.net(6)
SSL 证书(6)
容器(6)
无监督学习(6)
data(6)
创业(6)
互联网(6)
技巧(6)
计算机视觉(6)
数据类型(6)
图表(6)
信息安全(6)
LLM(6)
ios(5)
bash(5)
android(5)
金融(5)
工业物联(5)
spark(5)
hadoop(5)
正则表达式(5)
架构设计(5)
教育(5)
计算机科学(5)
脚本(5)
开发者(5)
索引(5)
通信(5)
效率(5)
压缩(5)
语音识别(4)
数字货币(4)
php(4)
nosql(4)
访问管理(4)
运维(4)
黑客(4)
markdown(4)
nat(4)
jupyter notebook(4)
分类算法(4)
迁移(4)
com(4)
model(4)
表格(4)
部署(4)
程序员(4)
工程师(4)
内核(4)
语法(4)
原型(4)
c 语言(3)
node.js(3)
ajax(3)
typescript(3)
搜索引擎(3)
日志服务(3)
erp(3)
单元测试(3)
kernel(3)
模式识别(3)
uml(3)
小程序(3)
windows(3)
系统架构(3)
信息流(3)
安全治理(3)
联邦学习(3)
隐私计算(3)
app(3)
atomic(3)
function(3)
gpu(3)
graph(3)
nlp(3)
patch(3)
png(3)
precision(3)
prompt(3)
token(3)
编程语言(3)
编译(3)
插件(3)
递归(3)
二维码(3)
工作流(3)
监控(3)
排序(3)
配置(3)
日志(3)
硬件(3)
字符串(3)
最佳实践(3)
对象存储(2)
iphone(2)
bootstrap(2)
xml(2)
unix(2)
bash 指令(2)
mapreduce(2)
TDSQL MySQL 版(2)
文字识别(2)
DevOps 解决方案(2)
电商(2)
hive(2)
面向对象编程(2)
unity(2)
asp(2)
自动化测试(2)
anaconda(2)
kafka(2)
虚拟化(2)
性能测试(2)
数据库管理(2)
智能网联(2)
abstract(2)
apply(2)
entity(2)
google(2)
max(2)
point(2)
predict(2)
scale(2)
series(2)
target(2)
time(2)
torch(2)
vi(2)
百度(2)
布局(2)
低代码(2)
地图(2)
动态规划(2)
公众号(2)
规范化(2)
接口(2)
量子计算(2)
入门(2)
手机(2)
数据仓库(2)
数组(2)
芯片(2)
音频(2)
隐私(2)
语音(2)
云平台(2)
数据流(2)
ICP备案(1)
费用中心(1)
云镜(主机安全)(1)
官方文档(1)
比特币(1)
scala(1)
jquery(1)
opengl(1)
qt(1)
单片机(1)
arm(1)
嵌入式(1)
composer(1)
云数据库 SQL Server(1)
oracle(1)
django(1)
打包(1)
全文检索(1)
windows server(1)
容器镜像服务(1)
spring(1)
短视频(1)
消息队列 CMQ 版(1)
检测工具(1)
人脸支付(1)
高性能计算(1)
政务云专区(1)
智能交通(1)
出行(1)
智能硬件(1)
yarn(1)
云联网(1)
serverless(1)
devops(1)
shell(1)
jdbc(1)
二叉树(1)
flash(1)
scrapy(1)
敏捷开发(1)
canvas(1)
processing(1)
云数据库 postgresql(1)
云数据仓库套件 sparkling(1)
flutter(1)
app安全(1)
腾讯会议(1)
sdk(1)
rust(1)
模型测试(1)
验证码(1)
数据集成(1)
图像搜索(1)
图像分析(1)
数据湖(1)
智慧交通(1)
智能制造(1)
小程序·云开发(1)
大模型视频创作引擎(1)
项目管理(1)
腾讯云(1)
acm(1)
add(1)
agent(1)
aigc(1)
alpha(1)
auto(1)
aws(1)
bit(1)
block(1)
byte(1)
chatbot(1)
chrome(1)
convolution(1)
cto(1)
cut(1)
cv2(1)
database(1)
dbpedia(1)
debug(1)
device(1)
dt(1)
epoch(1)
etl(1)
eval(1)
facebook(1)
file(1)
im(1)
image(1)
implicit(1)
jupyter(1)
kaggle(1)
lag(1)
layer(1)
lift(1)
lstm(1)
matplotlib(1)
min(1)
mips(1)
mnist(1)
models(1)
mysql(1)
network(1)
nodes(1)
nvidia(1)
oceanbase(1)
ode(1)
partial(1)
pdf(1)
persistence(1)
pipeline(1)
probability(1)
pycharm(1)
range(1)
report(1)
reset(1)
scaling(1)
seaborn(1)
self(1)
sequence(1)
show(1)
simulation(1)
size(1)
state(1)
statistics(1)
structure(1)
summary(1)
task(1)
text(1)
twitter(1)
wav(1)
word(1)
worker(1)
wsdl(1)
yaml(1)
yolo(1)
youtube(1)
zero(1)
百度地图(1)
版本控制(1)
备份(1)
闭包(1)
笔记(1)
编译器(1)
登录(1)
动画(1)
队列(1)
二进制(1)
反射(1)
服务器(1)
高性能(1)
工程化(1)
后端(1)
后台(1)
集群(1)
计算机图形学(1)
架构师(1)
加密(1)
金融科技(1)
镜像(1)
客户端(1)
跨域(1)
蓝牙(1)
链表(1)
浏览器(1)
流量(1)
漏洞(1)
密码学(1)
敏捷(1)
苹果(1)
前端(1)
全栈(1)
软件工程(1)
设计模式(1)
摄像头(1)
事务(1)
数据管理(1)
数据中心(1)
图数据库(1)
推送(1)
微信公众号(1)
系统设计(1)
线程(1)
小游戏(1)
性能分析(1)
音视频(1)
域名(1)
源码(1)
元宇宙(1)
云原生(1)
指针(1)
重构(1)
装饰器(1)
作用域(1)
城市交通(1)
自然语言处理(1)
数据清洗(1)
搜索文章
搜索
搜索
关闭
原创 | 基于Python的强化学习库
python
强化学习
开发
数据
算法
OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境,使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以是简单的数学问题,也可以是复杂的机器人控制问题。它还提供了多种预定义的环境,如CartPole、MountainCar等,这些环境都可以用于测试和比较强化学习算法。
数据派THU
2024-01-24
288
0
强化学习实现智能城市规划,清华团队最新成果登Nature子刊
人工智能
强化学习
布局
模型
网络
由于城市地理空间的多样性和巨大的动作空间,给城市布局用地和道路是一件非常复杂而困难的任务,长久以来一直依靠人类规划师的经验和直觉。如今,城市规划领域也有了自己的AlphaGo。
数据派THU
2023-09-21
1.5K
0
原创 | 一文读懂无模型的预测(强化学习二)
强化学习
动态规划
函数
模型
优化
在已知的马尔可夫决策过程(MDP)中,无论是策略迭代(policy iteration)还是价值迭代(value iteration),都假定已知环境(Environment)的动态和奖励(dynamics and reward),然而在许多的真实世界的问题中,MDP模型或者是未知的,或者是已知的但计算太复杂。本文讲述无模型的预测与控制Model-free Prediction and Control 中的前半部分,无模型的预测 (Model-free Prediction)通过与环境的交互迭代来求解问题。
数据派THU
2023-09-18
309
0
原创 | 一文读懂多模态强化学习
强化学习
机器人
编码
模型
数据
多模态强化学习是将多个感知模态和强化学习相结合的方法,能够使智能系统从多个感知源中获取信息,并利用这些信息做出更好的决策。这种方法对于处理现实世界中的复杂任务具有潜在的价值,并为智能系统的发展提供了新的研究方向。
数据派THU
2023-09-07
542
0
原创 | 一文读懂强化学习在动态规划领域的应用
强化学习
动态规划
函数
模型
数据
作者:黄娘球 本文约1600字,建议阅读5分钟本文澄清易混淆基础概念、推导公式为主,回顾强化学习基础知识。
数据派THU
2023-08-08
317
0
训练提速17%,第四范式开源强化学习研究框架,支持单、多智能体训练
开源
强化学习
框架
模型
数据
来源:机器之心本文约4000字,建议阅读10分钟强化学习研究框架 OpenRL 是基于 PyTorch 开发的,已经在 GitHub 上开源。 OpenRL 是由第四范式强化学习团队开发的基于 PyTorch 的强化学习研究框架,支持单智能体、多智能体、自然语言等多种任务的训练。 OpenRL 基于 PyTorch 进行开发,目标是为强化学习研究社区提供一个简单易用、灵活高效、可持续扩展的平台。目前,OpenRL 支持的特性包括: 简单易用且支持单智能体、多智能体训练的通用接口 支持自然语言任务(如对话任务
数据派THU
2023-05-18
453
0
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
强化学习
函数
框架
网络
性能
来源:机器之心本文约7300字,建议阅读10+分钟本文介绍关于生成流网络 (Generative Flow Networks) 的一个近期研究工作。 本工作已入选 ICLR 2023 Spotlight,也是 GFlowNets 领域第一篇 Spotlight 文章。 本文介绍关于生成流网络 (Generative Flow Networks) 的一个近期研究工作。在生成流网络 (Generative Flow Networks, GFlowNet) 中,智能体学习一个随机策略进行目标生成,使得生成目标的概
数据派THU
2023-05-18
372
0
收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)
开源
强化学习
模型
数据
源码
来源:AINLPer 本文约4000字,建议阅读8分钟 本文作者盘点了一些组织或者个人开源的模型。 ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源,复现难度极大,即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚,OpenAI又官宣发布了图文多模态的GPT4模型,能力相对ChatGPT又是大幅提升,似乎闻到了以通用人工智能主导的第四次工业革命的味道。 无论是国外还是国内,目前距离OpenAI的差距越来越大,大家都在紧锣密鼓的
数据派THU
2023-05-11
1.7K
0
利用强化学习Q-Learning实现最短路径算法
强化学习
nodes
代理
数据
算法
📷 来源:Deephub Imba 本文约2100字,建议阅读5分钟 本文中我们将尝试找出一种方法,在从目的地a移动到目的地B时尽可能减少遍历路径。 如果你是一名计算机专业的学生,有对图论有基本的了解
数据派THU
2023-05-11
553
0
原创 | 一文读懂强化学习DQN算法
强化学习
函数
数据
算法
网络
作者:贾恩东本文约3000字,建议阅读8分钟本文介绍了强化学习DQN的算法。 本文是入门强化学习系列的第二篇,上一篇是入门篇《一文读懂强化学习》。 上一篇中讲过强化学习的核心问题是找到最优的策略函数,而评价策略函数好坏的指标之一则是状态价值函数。这里快速回顾一下状态价值函数的定义。 在某时刻,在每种可能发生的状态 s 下,agent 都可以有动作 a (a∈A,A为所有可能动作的集合)可以选择,而每次执行动作,系统就会跳转到下一时刻,而状态就会发生转移,状态的转移不是唯一确定的,其概率分布由系统的状态转移概
数据派THU
2023-04-25
786
0
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
强化学习
监督学习
模型
数据
算法
本文约1200字,建议阅读5分钟本文提出了基于排序的人类偏好对齐方法。 OpenAI 的 ChatGPT 理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。自发布以来就掀起了对于通用人工智能的讨论。ChatGPT 令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。 RLHF 方法不同于以往传统的监督学习的微调方式,该方法首先让模型根据指令提示生成不同的回复,之后通过人工的评价反馈,使用强化学习的方式对 LLM 进行微调。RLHF 解锁了语言模型跟从人
数据派THU
2023-04-25
315
0
7个流行的强化学习算法及代码实现
强化学习
函数
模型
算法
网络
来源:Deephub Imba 本文约4500字,建议阅读5分钟 本文介绍了流行的强化学习算法的发展和改进。 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法已被用于在游戏、机器人和决策制定等各种应用中,并且这些流行的算法还在不断发展和改进,本文我们将对其做一个简单的介绍。 1、Q-learning Q-learning:Q-learning 是一种无模型、非策略的强化学习算法。它使用 Bellman 方程估计最佳动作值函数,该方程
数据派THU
2023-04-18
503
0
DDPG强化学习的PyTorch代码实现和逐步讲解
强化学习
pytorch
代理
模型
网络
来源:Deephub Imba本文约4300字,建议阅读10分钟本文将使用pytorch对其进行完整的实现和讲解。 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是受Deep Q-Network启发的无模型、非策略深度强化算法,是基于使用策略梯度的Actor-Critic,本文将使用pytorch对其进行完整的实现和讲解。 DDPG的关键组成部分是 Replay Buffer Actor-Critic neural network Explorati
数据派THU
2023-04-05
729
0
独家 | 三个经典强化学习算法中重大缺陷(及如何修复)
强化学习
函数
解决方案
数据
算法
诸如Q-learning和REINFORCE等强化学习算法问世已经几十年了,教科书仍然广泛围绕它们。然而这些算法暴露出的一些根本的缺陷,极大地增加了一个良好策略进行学习的难度。
数据派THU
2023-03-29
806
0
FAIR 训练 AI 玩拳击,效果堪比真人比赛,试探+周旋+爆头
强化学习
框架
论文
模型
数据
来源:AI科技评论 本文约2300字,建议阅读5分钟 两个人工智能体学会了拳击。 AI 拳击可以有多好玩? 小红红,吃我一拳。 嘿,我挡。 前期先试探周旋几次,再找机会吧。 没错,就是这个空隙,爆头。 还想故技重施,我躲。 怎么样,AI 拳击动画效果是不是和真人比赛神相似? 基于 AI 深度强化学习的拳击选手身体不仅拥有超高自由度,而且它还掌握了格挡、后退、摆拳等拳击基本动作。 Facebook 人工智能研究部门(FAIR)在机器学习领域,总能带来一些意想不到的成果,上面的演示正是它们在《Contro
数据派THU
2023-03-29
239
0
死侍在新片中,扮演了一个 AI 驱动的 NPC
游戏
强化学习
开发
设计
数据
来源:HyperAI超神经 本文约2200字,建议阅读5分钟 人工智能让小角色成为了大英雄。 近期上映的电影《失控玩家》讲述了一个普通的游戏 NPC ,因为加入了 AI 技术,将其改造成了一个想要扭转玩家命运、改变游戏的大人物。游戏 AI 的普及,让《失控玩家》中描绘的场景逐渐得以实现。 关键词:游戏AI 强化学习 最近在北美和中国上映了一部以电子游戏为创作背景的电影《Free Guy》(中文片名译作《失控玩家》),由《死侍》的扮演者瑞安·雷诺茨主演。 全片轻松搞笑,特效精致,暑期档里表现亮眼,全球
数据派THU
2023-03-29
507
0
开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍
开源
强化学习
模型
内存
数据
来源:潞晨科技 本文约4000字,建议阅读8分钟Colossal-AI 快速跟进,首个开源低成本复现 ChatGPT 完整流程。 火爆全网的 ChatGPT,仿佛开启了第四次工业革命,让微软、谷歌等全球科技巨头打得昏天黑地,引得各路玩家纷纷入局,抢占赛道。 然而由于 OpenAI 没有开源 ChatGPT,如何有效复现 ChatGPT 已成为摆在大家面前的头号难题,急需可靠的开源共建方案。 Colossal-AI 快速跟进,首个开源低成本复现 ChatGPT 完整流程。作为当下最火热的开源 AI 大模型解决
数据派THU
2023-03-29
1.2K
0
ChatGPT/InstructGPT详解
强化学习
chatgpt
模型
数据
算法
来源:京东云 海豚数据科学实验室本文约7000字,建议阅读15分钟要搞懂ChatGPT,我们必须要先读懂InstructGPT。 前言 GPT系列是OpenAI的一系列预训练文章,GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的Cha
数据派THU
2023-03-29
858
0
强化学习数学入门教程
强化学习
函数
教程
论文
数学
来源:专知本文为教程介绍,建议阅读5分钟本文旨在使听众对RL有足够的基本概念。 我向实验室成员提供了一份关于强化学习的数学深入教程。这是为了帮助成员学习RL方法并将其应用于各自的问题领域,也为了我自己深入理解RL。演讲从Atari游戏玩智能体的背景下解释学习智能体开始,并解释了典型RL方法和论文中使用的不同成本函数和术语。本演讲旨在使听众对RL有足够的基本概念,以便他们可以立即开始阅读有关RL的最新论文,并能够理解其中的术语。 https://anmolsharma.co/talk/rl-tut/
数据派THU
2023-03-29
135
0
【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作
机器学习
强化学习
框架
模型
数据
来源:专知本文为书籍介绍,建议阅读5分钟基于模型的强化学习探索了一种全面而实用的强化学习方法。 强化学习是机器学习的一种基本范式,其中智能体执行动作以确保设备的最佳行为。虽然这种机器学习范式近年来获得了巨大的成功和普及,但之前的学术要么专注于理论最优控制和动态规划,要么专注于算法,其中大多数是基于仿真的。 https://www.wiley.com/en-us/Model+Based+Reinforcement+Learning%3A+From+Data+to+Continuous+Actions+wit
数据派THU
2023-03-29
337
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档