首页
学习
活动
专区
工具
TVP
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

强化学习实现智能城市规划,清华团队最新成果登Nature子刊

数据派THU

由于城市地理空间的多样性和巨大的动作空间,给城市布局用地和道路是一件非常复杂而困难的任务,长久以来一直依靠人类规划师的经验和直觉。如今,城市规划领域也有了自己的...

7730

Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑

机器之心

在开发机器人学习方法时,如果能整合大型多样化数据集,再组合使用强大的富有表现力的模型(如 Transformer),那么就有望开发出具备泛化能力且广泛适用的策略...

13540

q-learning强化学习使用基础

sofu456

马尔科夫链:奖励*折扣因子,R(t)=reward(1)+yR(t+1),马尔可夫链多次迭代后分布趋于稳定所以可以得到最优解

4620

每日学术速递9.13

AiCharm

1.Character Queries: A Transformer-based Approach to On-Line Handwritten Charact...

7510

基于分解和重组的分子图的生成方法

DrugAI

今天为大家介绍的是来自Masatsugu Yamada 和 Mahito Sugiyama的一篇关于分子生成的论文。在药物发现和材料设计中,设计具有所需化学性质...

5910

ClinicalGPT 来袭! 医学考试与诊断通通搞定

DrugAI

今天我们介绍由北京邮电大学网络和交换技术国家重点实验室的王光宇等学者发表在arXiv上的工作,该工作提出ClinicalGPT,一个明确为临床场景设计和优化的语...

7330

AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述

机器之心

大规模语言模型在众多下游任务中展现了惊人的能力,但它们在使用中仍然暴露了一些问题。其中,幻觉是目前影响大模型落地的重要问题之一。ChatGPT 的发布使学术界和...

8330

攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了

机器之心

具体来说,该研究提出了一种强化学习方法,旨在让机器人掌握攀爬高障碍、跳过大间隙、在低障碍下爬行、挤过狭小缝隙和跑步,并将这些技能蒸馏成基于单一视觉的跑酷策略,并...

11650

原创 | 一文读懂无模型的预测(强化学习二)

数据派THU

在已知的马尔可夫决策过程(MDP)中,无论是策略迭代(policy iteration)还是价值迭代(value iteration),都假定已知环境(Envi...

10820

深度学习在股市的应用概述

算法进阶

股票市场预测由于其非线性、高度波动性和复杂性,一直是个复杂的问题。近年来,深度学习在许多领域占据了主导地位,在股市预测方面取得了巨大的成功和普及。本文以深度学习...

6130

斯坦福 & 微软 | 决策预训练 Transformer,可解决一系列上下文强化学习(RL)问题

ShuYini

 在本文,作者主要研究和理解上下文学习在连续决策任务上的应用,特别是在强化学习背景下。决策(例如强化学习)比监督学习更加动态和复杂。理解和应用上下文学习可以在很...

5620

动物为什么会集群?强化学习揭示“动物生存压力在集群形成中的关键作用”

CV君

对于这个问题,科学家们一直在尝试通过各种模型来解释这些行为,并提出了许多假设。在近期的一个研究工作中,西湖大学智能无人系统实验室与德国马普所动物行为研究所使用强...

5920

动物为什么会集群?强化学习揭示“动物生存压力在集群形成中的关键作用”

CV君

对于这个问题,科学家们一直在尝试通过各种模型来解释这些行为,并提出了许多假设。在近期的一个研究工作中,西湖大学智能无人系统实验室与德国马普所动物行为研究所使用强...

8010

动物为什么会集群?强化学习揭示“动物生存压力在集群形成中的关键作用”

CV君

对于这个问题,科学家们一直在尝试通过各种模型来解释这些行为,并提出了许多假设。在近期的一个研究工作中,西湖大学智能无人系统实验室与德国马普所动物行为研究所使用强...

7110

大模型知道自己“不知道”哪些知识吗?

zenRRan

关于幻觉形成的原因,详细原因可以看这里:John Schulman:强化学习与真实性,通往TruthGPT之路1

11330

RLAIF:一个不依赖人工的RLHF替代方案

zenRRan

基于人类反馈的强化学习(RLHF)通过收集人类反馈,以强化学习方法训练LLM,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困...

17430

RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平

新智元

谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。

8820

用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA

新智元

但人类大部分时间的语言表达,却远远超出了指令的范围。比如:「我们好像没有牛奶了」......

7240

无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型

新智元

基于人类反馈的强化学习(RLHF)在对齐语言模型上取得了非常好的效果,可以让预训练模型具有无害性、有用性等理想品质,并在多项自然语言处理任务中取得了最先进的结果...

6230

从人工智能学角度谈谈《流浪地球2》的人在回路中

木羊

《流浪地球2》最大的感受是细节拉满,一个场景一句台词,乍看不太起眼,仔细琢磨包含很多信息。下面我想说说片尾部分不太起眼的“人在回路中”。

7440
领券