深度强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签深度强化学习

#深度强化学习

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

CoovallyAIHub 13小时前2026-02-10 09:35:19

当AI画作已能以假乱真，人类如何守住现实边界？新一代检测框架通过建模“真实本身”实现超人级鉴别能力。

1400

AI上阵，短信防线升级：SKT用深度学习狙击韩国“全民诈骗潮”，中国运营商能否借镜？

草竹道人

中国互联网络信息中心｜工程师 (已认证)

20天前2026-01-21 10:04:32

在首尔江南区的一间普通公寓里，72岁的金女士刚刚收到一条短信：“【国民银行】您的账户存在异常登录，请立即确认：bit.ly/3xK9mPq”。她点开链接，输入了...

21710

强化学习_从Q-Learning到深度强化学习

心疼你的一切 20天前2026-01-21 08:50:21

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，专注于智能体（Agent）如何通过与环境（Environment）的交...

26310

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

AI-Frontiers 21天前2026-01-20 09:10:08

原文: https://mp.weixin.qq.com/s/9f4mqYVGKNS-LhmHLl6CXw

57710

AI成钓鱼“加速器”？从语法错误到深度伪造，网络诈骗正经历一场危险进化

草竹道人

中国互联网络信息中心｜工程师 (已认证)

27天前2026-01-14 09:42:14

全球网络安全界正面临一个令人不安的现实：曾经靠拼写错误和蹩脚话术就能被一眼识破的钓鱼邮件，如今正变得越来越“专业”、越来越“真实”，甚至让人难以分辨真假。而这场...

18210

超越Sora的开源思路：如何用预训练组件高效训练你的视频扩散模型？（附训练代码）

CoovallyAIHub 2026-01-072026-01-07 16:53:49

当我们开始思考3D数据或视频时，一个很自然的想法就是把它们视为一系列2D帧，然后通过简单地把时间作为额外维度来应用同样的模型。

9410

无人机低空视觉数据集全景解读：从单机感知到具身智能的跨越

CoovallyAIHub 2025-12-222025-12-22 10:49:06

年来，随着无人机技术的快速发展和低空经济政策的推进，无人机在智慧城市、交通巡检、应急救援等领域的应用日益广泛。然而，无人机的智能化离不开高质量视觉数据的支持。那...

57110

小白也能看懂的RLHF-PPO：原理篇

AI-Frontiers 2025-12-162025-12-16 17:25:15

原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w

31410

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

languageX 2025-11-232025-11-23 15:41:19

在之前的强化学习系列中我们介绍了强化学习的基础知识，也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。

1.5K40

基于深度伪造的高管仿冒钓鱼攻击检测与防御机制研究

草竹道人

中国互联网络信息中心｜工程师 (已认证)

2025-11-212025-11-21 14:09:50

近年来，随着生成式人工智能技术的快速发展，深度伪造（Deepfake）技术被恶意行为者广泛用于网络钓鱼攻击。其中，针对企业高管的“深度伪装”钓鱼攻击尤为突出。攻...

25910

深度强化学习架构中的优先级经验回放技术：TD误差采样与偏差修正

用户6320865 2025-08-272025-08-27 16:40:19

在人工智能技术快速发展的2025年，深度强化学习（Deep Reinforcement Learning, DRL）已成为实现通用人工智能的重要技术路径之一。这...

45110

深度强化学习架构探秘：DQN过估计问题与解决方案详解

用户6320865 2025-08-272025-08-27 16:37:45

在人工智能领域，深度强化学习（Deep Reinforcement Learning, DRL）已成为最富前景的研究方向之一。这种将深度学习与强化学习相结合的方...

60910

图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？

机器之心 2025-08-062025-08-06 15:11:56

近些天，Sutton 再发新论文，在强化学习领域再次发力，将他在 2024 年的时序差分学习新算法 SwiftTD 拓展到控制领域，在与一些更强大的预处理算法结...

27510

C# 的深度强化学习框架RL_Matrix

张善友 2025-07-042025-07-04 08:54:56

RL_Matrix 是一个专为 .NET 开发者设计的强化学习框架，使用 TorchSharp（.NET 版的 PyTorch）作为后端，提供类型安全、高性能的...

27810

11款最佳习惯追踪养成式祝你实现目标

快乐打工人t 2025-06-262025-06-26 10:57:48

在追求自我提升和良好生活习惯养成的道路上，习惯养成软件成为了众多人的得力助手。如今，市场上的习惯养成软件琳琅满目，让人眼花缭乱。今天，老坛就为大家带来2025年...

93310

【AI前沿】深度学习基础：深度强化学习

屿小夏 2025-05-232025-05-23 18:28:42

深度强化学习（DRL）通过结合深度学习和强化学习的优势，在复杂环境中实现了自主学习和决策，取得了显著的成果。本文详细介绍了强化学习的基本概念、深度Q网络（DQN...

1.1K10

DeepSeek认知之旅

用户4034541 2025-02-242025-02-24 21:13:29

DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文，以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点，以时间顺序按脑图...

12100

深度解析模型蒸馏中的 soft label 概念及其应用案例

编程小妖女 2025-02-052025-02-05 11:20:19

在当今人工智能与机器学习领域中，模型蒸馏（ model distillation ）作为一种高效的模型压缩方法受到广泛关注。借助这一方法，可以利用大型、复杂的教...

77010

大语言模型的模型蒸馏：概念、方法与应用

编程小妖女 2025-02-042025-02-04 11:25:04

在人工智能领域，大语言模型（LLM）的出现带来了革命性的变革，例如 GPT 系列、BERT、T5 等模型展示了卓越的自然语言处理（NLP）能力。然而，这些模型往...

3.7K40

#深度强化学习

突破认知边界！中科院等提出MIRROR框架：AI鉴伪从此有了“真实之镜”

AI上阵，短信防线升级：SKT用深度学习狙击韩国“全民诈骗潮”，中国运营商能否借镜？

强化学习_从Q-Learning到深度强化学习

收藏！LLM-RL训练框架：3大流派+6大框架，一文搞定

AI成钓鱼“加速器”？从语法错误到深度伪造，网络诈骗正经历一场危险进化

超越Sora的开源思路：如何用预训练组件高效训练你的视频扩散模型？（附训练代码）

无人机低空视觉数据集全景解读：从单机感知到具身智能的跨越

小白也能看懂的RLHF-PPO：原理篇

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

基于深度伪造的高管仿冒钓鱼攻击检测与防御机制研究

深度强化学习架构中的优先级经验回放技术：TD误差采样与偏差修正

深度强化学习架构探秘：DQN过估计问题与解决方案详解

图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？

C# 的深度强化学习框架RL_Matrix

11款最佳习惯追踪养成式祝你实现目标

【AI前沿】深度学习基础：深度强化学习

DeepSeek认知之旅

深度解析模型蒸馏中的 soft label 概念及其应用案例

大语言模型的模型蒸馏：概念、方法与应用

热门专栏

张善友的专栏

机器之心

拓端tecdat

算法之名

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐