腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

AI科技评论

专栏作者

4092

文章

3387335

阅读量

184

订阅数

港大张清鹏团队提出个性化癌症治疗新思路：用 AI 控制癌细胞进化过程

算法强化学习函数模型数据

现代癌症治疗里耐药性的发展常常是导致治疗失败和肿瘤进展的原因，每个患者的耐药情况与肿瘤特征更是具有高度个体化的特征。

2024-04-11

1150

如何设计星际争霸2等游戏AI？解密决策AI的应用及其在游戏中的设计！

人工智能游戏强化学习模型设计

作者 | Don 编辑 | 青暮北京时间10月28日，商汤科技和 AI 研习社共同举办决策智能系列公开课，对如何提高决策 AI 通用能力、泛化能力和适应能力以及复杂场景下 AI 鲁棒性进行介绍，AI科技评论对此公开课做了不改变原意的整理。视频回放链接：https://live.yanxishe.com/room/972 1 摘要人工智能技术已经进入从感知智能到决策智能演变的关键节点，决策AI技术的前沿进展和突破也到了在实际场景部署和应用的阶段。决策AI技术应用的成功与否直接决定了这一技术在产业界的认

2023-04-26

2780

谷歌研究科学家：ChatGPT 秘密武器的演进与局限

强化学习 chatgpt 模型数据优化

以下文章来源于OneFlow ，作者OneFlow社区来源｜TalkRL OneFlow 编译翻译｜徐佳渝、贾川同样是基于GPT预训练模型，为什么ChatGPT的效果要远远超出GPT-3等前几代模型？答案已经揭晓，成就ChatGPT的秘密武器在于RLHF，也就是人类反馈的强化学习。在预训练阶段，GPT模型学习关于这个世界的一切，而在RLHF阶段，ChatGPT更关注的让模型输出正确、有益的恰当结果，并对结果不断进行微调。具体而言，RLHF阶段的调优又分为三大步骤：第一步：通过监督学习，用人类对

2023-04-19

2300

“绝悟”化身Minecraft矿工，夺冠NeurIPS2021 MineRL大赛

游戏强化学习 minecraft 数据算法

《Minecraft》(中文译名《我的世界》) 是全球最知名的开放世界游戏。小朋友只需观看十分钟的教学视频，就能学会在游戏中寻找稀有的钻石——而这是AI无法企及的高度。随机生成的开放地图、自由灵活的玩法、多线程长链条任务，给AI研究带来了极大挑战。针对Minecraft的复杂环境，机器学习顶会NeurIPS已组织了三届MineRL（Sample Efficient RL Competition）赛事，邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的钻石。 12月8日，第三届MineRL竞赛主赛道

2023-04-12

2440

独家 | 李学龙、唐杰入选 2023 AAAI Fellow，华人占约 1/5

网络安全 https 强化学习机器学习人工智能

作者｜黄楠编辑｜陈彩娴 AI 科技评论消息，2023年 AAAI Fellow 入选名单已出炉，此次新增11位 Fellow，表彰他们在数据挖掘、并行计算、机器学习等方面的所作出的贡献。其中，共两位华人学者入选，分别是西北工业大学的李学龙、清华大学的唐杰。 AAAI 是国际人工智能领域的权威学术组织，Fellow 是该学会给予会员的最高荣誉，仅颁给对人工智能做出「非同寻常的卓越贡献者」。由于评判极严格，历届 AAAI Fellow 入选者均为人工智能领域公认的著名学者，每年严格限制 5-10 位入选

2023-02-23

3360

明年 1 月，推高 CPU 人工智能算力天花板

机器学习强化学习神经网络人工智能深度学习

从数据分析、经典机器学习到搜索、推荐，再到语言处理和图像识别，每个 AI 任务运行的背后都需要海量的数学计算。可以说，AI 真的就是数学，但却是很多很多的数学。

2023-01-03

8720

OpenAI 最强对话模型 ChatGPT：用户已破百万，落地将有几何

NLP 服务强化学习搜索引擎

上周三，OpenAI 发布了对话语言模型 ChatGPT，并开放了免费试用。据 OpenAI 的 CEO Sam Altman 称，在短短 5 天的时间里，ChatGPT 就有了 100 万用户，而之前的 GPT-3 花了将近 24 个月才达到这个用户量。

2023-01-03

1.4K0

斯坦福李飞飞新作登 PNAS：AI 与人类互动才能提高智能水平

学习方法图像处理强化学习

作者 | 李梅编辑 | 陈彩娴人类从与他人的互动中学习，而目前的人工智能却常常只能在与社会隔离的环境中学习。所以当我们把一个智能体放到真实世界中时，它会不可避免地在遇到大量新的数据，无法应对不断变化的新需求。如何将智能体从只有一堆书的房间里“解放”出来，让它在广阔的社会情境中学习，是一个新的挑战。最近，斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人针对此问题提出了一种新的研究框架：社会化人工智能（socially situa

2022-09-28

3100

Richard Sutton 直言卷积反向传播已经落后，AI 突破要有新思路：持续反向传播

强化学习编程算法深度学习学习方法神经网络

作者 | Richard Sutton 编译 | bluemin 编辑 | 陈彩娴 “可塑性损失”（Loss of Plasticity）是深度神经网络最常被诟病的一个缺点，这也是基于深度学习的 AI 系统被认为无法持续学习的原因之一。对于人脑而言，“可塑性”是指产生新神经元和神经元之间新连接的能力，是人进行持续学习的重要基础。随着年龄的增长，作为巩固已学到知识的代价，大脑的可塑性会逐渐下降。神经网络也是类似。一个形象的例子是，2020 年热启动式（warm-starting）训练被证明：只有抛除最初学

2022-09-27

4120

DeepMind 首席科学家 Oriol Vinyals 最新访谈：通用 AI 的未来是强交互式元学习

机器学习深度学习强化学习人工智能 NLP 服务

整理｜李梅编辑｜陈彩娴自 2016 年 AlphaGo 在围棋中击败人类以来，DeepMind 的科学家一直致力于探索强大的通用人工智能算法，Oriol Vinyals 就是其中之一。 Vinyals 于 2016 年加入 DeepMind，目前任首席科学家，领导深度学习小组。此前他曾在 Google Brain 工作。他的博士就读于加州大学伯克利分校，曾获得 2016 年 MIT TR35 创新者奖。他在 seq2seq、知识蒸馏以及 TensorFlow 方面的研究成果，已经被应用于谷歌翻译、文转到

2022-08-26

2590

「反卷斗士」许华哲：以热爱为名，用深度强化学习打造一个「机器厨子」

机器人自动驾驶无人驾驶图像处理强化学习

十年前，他以本科生的身份走入清华电子系；十年后，他将以一名教师的身份重回清华，在叉院开启新的篇章，传递知识，探索真理。作者 | 李梅编辑 | 陈彩娴想象一下：在未来的某一天，你，一个996的「社畜」，或「上班狗」，辛苦一天回到家，瘫倒在沙发上。当你抬头一看，你的机器人朋友正在厨房为你做晚饭——它的双手敏捷灵活，在油盐酱醋与锅碗瓢盆之间，一顿优雅操作，不久便有阵阵香气扑鼻而来。它把晚餐端到餐桌上，对你微微一笑：「开饭啦！」然后转身拿起你换下的衣物走向洗衣机...... 这不是一篇小学生的科幻小作文，而

2022-05-30

6390

IEEE Fellow黄建伟：「网络经济、群体智能」跨界融合，智慧城市的新风暴

机器学习强化学习编程算法联邦学习神经网络

作者 | 高秀松编辑 | 余快、陈彩娴自然界中，「蚂蚁觅食」是一种寻常但奇特的现象。成群结队的蚂蚁，总是能够在食物与蚁巢之间寻找到最佳路径，快速地将食物搬运至蚁巢中。这引起了生物学家的广泛注意，在经过多次研究实验之后，他们发现：蚂蚁在寻找食物过程时具备随机性，没有固定的方向和目标，但只要有一只蚂蚁发现食物，这只蚂蚁在搬运食物回巢时，就会留下一种微弱的气味，即一种叫做「信息素」的物质。其它蚂蚁会沿着该气味寻找到食物，然后再次留下气味踪迹。最终，越来越多的蚂蚁加入其中，形成了一条最优化的路径。这种特性

2022-05-25

4090

王鹤团队获ICLR 2022机器人ManiSkill挑战赛无额外标注赛道冠军

机器人强化学习 api

获奖证书日前，由美国加州大学圣地亚哥分校、伯克利分校以及斯坦福大学联合在国际机器学习顶级会议 ICLR 2022上举办的机器人挑战赛 SAPIEN ManiSkill Challenge 2021落下帷幕。北京大学前沿计算研究中心王鹤老师领导的参赛队伍 EPIC Lab 在无额外标注（No External Annotation Track）赛道获得冠军。论文链接：https://arxiv.org/abs/2203.02107 1 比赛详情 ManiSkill Challenge 致力于让机器人学习到

2022-05-05

6370

上海交大ACM班俞勇团队推出强化学习入门宝典！附作者对话

强化学习学习方法编程算法机器学习 jupyter notebook

上海交通大学ACM班又出新品，人邮“动手学”又一力作《动手学强化学习》来了！作者 | Ailleurs 编辑 | 陈彩娴在过去十多年的发展中，基于机器学习的智能检测和智能预测类的人工智能技术快速发展。例如，在门禁系统中应用的人脸活体检测、在个性化信息流推荐中应用的用户兴趣预测已成为人们日常生活中不可或缺的技术。如今，在这些成熟的人工智能技术基础上，服务于决策智能的技术变得越来越重要，这背后对应机器学习领域下的一个分支——强化学习。目前强化学习技术已经在机器人控制、游戏智能、智慧城市、推荐系统、能源

2022-04-19

5730

DeepMind用深度强化学习研究“人造太阳”！据说这是秘密进行了3年的工作

强化学习机器学习神经网络人工智能深度学习

“AI+物理”成功破圈，DeepMind 怕是要上天。作者 | 王晔编辑 | 陈彩娴北京时间凌晨四点，DeepMind在官方推特上发布消息，称其与瑞士洛桑联邦理工学院（EPFL）合作研究出第一个可以在托卡马克（Tokamak）装置内保持核聚变等离子体稳定的深度强化学习系统，为推进核聚变研究开辟了新途径，工作已发表在Nature！消息一出，立刻引起围观，收获一千多点赞、数百转发：据该工作的其中一位成员@317070披露，该工作已经秘密进行了三年，并兴冲冲地表示：“它真的成功了！深度强化学习真的很擅

2022-03-03

6470

推荐 | 「强化学习」中文书籍免费开源啦

开源强化学习机器学习编程算法深度学习

由北京大学前沿计算研究中心助理教授董豪博士等编写的深度强化学习专著《深度强化学习：基础、研究与应用（DeepReinforcement Learning: Foundamentals, Research and Applications）》英文版于2020年6月由 Springer 发行，中文简体、繁体版先后于2021年6月、2022年1月发行，并于2022年2月对中文简体版开放免费下载。图文 | 董豪，丁子涵内容摘要深度强化学习是实现智能决策的关键技术之一，对人工智能、机器人、认知科学、金融、资源调配

2022-03-03

6710

平安科技前沿技术部门负责人王磊：大规模预训练模型在垂直领域应用的缺陷与改进

NLP 服务金融强化学习

作者 | 王磊整理 | 维克多编辑 | 青暮目前，大规模预训练模型已经在自然语言处理领域取得了巨大的成功。BERT、GPT-3等大规模预训练模型被看做是“暴力美学”的一次胜利，验证了“模型越大，性能越好”的逻辑，业界也普遍形成了“炼大模型”的竞赛趋势，国内研究机构和企业也相继发布了大规模预训练模型，呈现百花齐放、百家争鸣的发展格局。这些模型的实际应用情况如何？它们能解决哪些实际问题？还有哪些不足？ 2021年12月，平安科技前沿技术部门负责人王磊在 CNCC 2021“产业共话：大型预训练模型的商业

2022-03-03

5860

打破大模型的“空中城堡”，BMVC最佳论文Runner-Up得主谈多模态与具身学习

强化学习监督学习 https 网络安全

两只新生猫的运动方式是否为主动，对视觉感知能力的影响非常大。这启发了人工智能中的具身学习范式，其中最关键的要素便是——主动。

2022-01-21

3690

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

强化学习编程算法机器学习机器人游戏

强化学习在人工智能领域的「扬名立万」，始于2016年DeepMind开发的Alpha Go在围棋竞赛中战胜人类世界冠军李世石。

2021-12-24

6370

与Jeff Dean聊ML for EDA，最佳论文花落伯克利：EDA顶级会议DAC 2021 精彩回顾

深度学习 tcp/ip 强化学习硬件开发

12月9日，第58届EDA首要会议DAC（Design Automation Conference）的线下部分在旧金山落下帷幕，此次会议为期五天。

2021-12-22

6550

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态