行早 发自 凹非寺 量子位 | 公众号 QbitAI DeepMind&OpenAI这回联手展示了一手安全强化学习模型的好活。 他们把二维的安全RL模型ReQueST推向了更实用的3D场景中。 要知道ReQueST原来只是应用在导航任务,2D赛车等二维任务中,从人类给出的安全轨迹中学习如何避免智能体“自残”。 △图注:原来ReQueST的二维导航任务(避开红色区域)和赛车任务 但是在实际的3D环境中问题更为复杂,例如执行任务的机器人需要在工作中避障,自动驾驶的汽车需要避免开到沟里去。 但是在实际的3D
774M参数的GPT-2模型,学习了人类为它编制的一共有65000个带有人类偏好的标签,微调后,学会了两个“投其所好”的新技能:
晓查 发自 凹非寺 量子位 | 公众号 QbitAI 如何用几句话向6岁儿童解释登月? GPT-3给出的答案实在离谱: 向孩子解释引力理论、相对论、大爆炸、进化论…… 为了修正这样的“bug”,OpenAI在今天推出了全新的“指导版GPT”——InstructGPT模型。 InstructGPT甚至不用出全力,只要13亿参数,就能比1750亿参数的模型效果更好。 来看看InstructGPT是怎么回答的吧: 人类去月球,拍摄他们所看到的,然后返回地球,我们就看到了他们。 (People went to t
选自OpenAI 作者: CHRISTOPHER HESSE等 机器之心编译 参与:李亚洲、刘晓坤 近日,OpenAI 发布了一个迁移学习竞赛,来评判强化学习算法从先前经验进行泛化的能力。在典型的强化学习研究中,算法的测试与训练环境是一样的,这对于记忆能力更好以及有很多超参数的算法来说更有优势。而 OpenAI 发布的这个竞赛是在先前未见过的视频游戏上测试算法。此外,该竞赛使用的是 OpenAI 将经典游戏融入到 Gym 中做出的新平台 Gym Retro。 竞赛地址:https://contest.ope
【新智元导读】谷歌大脑的 Denny Britz 在他的个人博客上发表了一篇强化学习经验总结,包括好用的教程和教材,最关键的,是他经试着用 Python、OpenAI Gym、Tensorflow 写了大部分标准强化学习算法,并且按章节列出,还提供了练习和答案,是为强化学习实践的好资料。 为什么要学习强化学习? 强化学习(Reinforcement Learning,RL)是我最感兴趣的领域之一。过去几年里强化学习取得的一些成果得到了很多关注,例如掌握围棋、从原始像素学会玩 Atari 游戏,但强化学习还可
【新智元导读】DeepMind此前开源了《星际争霸2》机器学习训练平台,这个平台对于state-of-the-art的深度强化学习算法来说是极好的测试平台。希望下面这份教程能帮你更快更好地上手。 DeepMind 之前开源了《星际争霸2》的深度强化学习平台,这是个很好的训练环境,学起来也很有趣。下面是一份有关设置环境和训练模型的教程,基于Mac环境。我们会跑一遍训练脚本,使用Deep Q-Network解决CollectMineralShards这个mini-game。享受学习吧~ 在开始之前,你需要准备好
这段时间,开源大语言模型(LLM)可谓是进步飞快,像是 LLaMA 和 Vicuna 等模型在各种语言理解、生成任务上展现了极佳的水平。
近些年,开源大语言模型(LLM)进步飞快,例如LLaMA和Vicuna等模型在各种语言理解、生成任务上展现了极佳的水平。但是,当它们面对更高级别的任务,例如根据用户指令使用外部工具(API)时,仍然有些力不从心。
这是 OpenAI 上线 Assistant 检索功能后,技术圈传出的部分声音。原因在于,此功能可以为用户提供基于知识库问答的 RAG(检索增强生成) 能力。而此前,大家更倾向于将向量数据库作为 RAG 方案的重要组件,以达到减少大模型出现“幻觉”的效果。
来MIT之前我就知道导师不会提供具体的idea,而是要靠我自己去摸索。这固然是增加了我的困难,但是也让我感受到了如何探索一个靠谱的idea的过程。不过从后面我的摸索过程来看,作为本科生的第一个项目,最好还是有一个具体的idea会顺利很多。不过在我的争取下,还是从博士后那里拿到了一个不太明确的方向:在一个新的环境上做一个已有的task,看能不能发现一些新的问题。
原文地址:https://blog.openai.com/baselines-acktr-a2c/
强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。
LLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。
1. http://www.theconstructsim.com/ros-developers-live-class-develop-with-ros/
去年,OpenAI 在 DOTA 的 1v1 比赛中战胜了职业玩家 Dendi,而在距离进阶版 OpenAI Five 系统战胜人类业余玩家不过一个月的时间,今天凌晨,它又以 2:1 的战绩再次完成对人类高级玩家的“屠杀”,GG(人类赢的最后一局纯属耍赖)。
机器之心报道 机器之心编辑部 不是谁都能像波士顿动力一样能不断找到下家。 曾经训练出单手解魔方机器人的 OpenAI,眼下已经解散了机器人团队。这家执着于实现通用人工智能(AGI)的公司现在放弃了机器人研究,理由是「数据不够丰富」。 近期,OpenAI 公司联合创始人 Wojciech Zaremba 在一档播客节目中透露了这个消息。当主持人问到「你们为什么选择了机器人领域」的时候,Wojciech Zaremba 却表示,OpenAI 已将重点转移到其他领域,因为在那些领域中数据更容易获得。 视频地址
强化学习,作为一种被认为通用人工智能的学习方式而被广泛研究,但主要也由业界领先组织,诸如DeepMind,OpenAI, 伯克利等,OpenAI 作为领先者,在强化学习方面率先推出自己的框架,其中baseline更是开源了很多强化学习算法用于测试Atria, 物理引擎等,但是 OpenAI 的强化学习训练环境也一直遭到不少抱怨,比如不太稳定、更新没有及时等而被吐槽。
当 AI 智能体不再满足「与人斗其乐无穷」,它的能力极限在哪里呢? 今日,由超参数科技发起,联合学界麻省理工学院、清华大学深圳国际研究生院,以及知名数据科学挑战平台 AIcrowd 共同主办的「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」正式启动。 过去数年,随着神经网络、基于强化学习的自我博弈、多智能体学习和模仿学习等通用 ML 技术的突飞猛进,AI 智能体在多类型游戏中宣示着它们对人类愈来愈强的优势。同时,人工智能研究者不再满足于 AI 智能体击败人类了。为了探索 AI 智能
一夜之间,全新开源模型「OpenLLM」击败ChatGPT的消息,在网上引起轩然大波。
最近 OpenAI 在 Dota 2 上的表现,让强化学习又大大地火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却一直遭到不少抱怨,比如不太稳定、更新没有及时……
机器之心转载 来源:知乎 作者:周昕宇 压缩即智能? 最近在研究 OpenAI 发现,他们其实做的只是机器学习的第一原理,也是机器学习的终局:优化对于未来观察的无损传输的压缩大小。进一步分析后发现,这个理论非常 powerful,因为仅仅如此,便能通向超过人类的智能 (Super-human Intelligence)。本文会介绍无损压缩的基本原理和具体实现以及对于 AI 未来发展的猜想。 在和小伙伴一起研究的过程中,引出一些有意思的讨论。虽然由于篇幅限制不会特别深入,但希望能引起大家的兴趣。讲无损压缩的
2020年5月,OpenAI推出了参数量高达1750亿的语言预训练模型GPT-3。
近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统;以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法(例如 IMPALA[8])训练得到的,这就意味着需要很高的并行度和庞大的算力支持,例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来收集数据样本和训练网络
深度强化学习(DRL)已被公认为量化投资中的一种有效方法,因此获得实际操作经验对初学者很有吸引力。然而,为了培养一个实用的DRL 交易agent,决定在哪里交易,以什么价格交易,以及交易的数量,会涉及非常多的内容和前期具有挑战性的开发和测试。
项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身的硬实力。
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
baseline的提示为,「你能给我看一下使用PyTorch的简单convnet的代码吗?」
近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统;以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是采用 on-policy 算法(例如 IMPALA[8])训练得到的,这就意味着需要很高的并行度和庞大的算力支持,例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来收集数据样本和训练网络。
今天给大家讲讲DNN(深度神经网络)在训练过程中遇到的一些问题,然后我们应该怎么去注意它,并学会怎么去训练它。
在传统的policy optimization强化学习中,通常会手加一个动作熵作为探索项,然后对该项的权重因子调参以达到增加探索的目的。然而“In practice, moreover, policy gradient methods typically employ carefully tuned entropy regularization in order to prevent policy collapse.”,更严重的是动作熵的引入破坏了PG(policy gradient )理论的自洽性,而对于一个理论来说自洽性重于泰山。
前段时间,Google Brain科学家Barret Zoph表示,他们设计了一个名叫「Switch Transformer」的简化稀疏架构,将语言模型的参数量扩展至 1.6 万亿同时带来了诸多评测上的提升。
OpenAI:我们将发布8个模拟的机器人环境,以及一种叫做“事后经验回顾”(Hindsight Experience Replay,简称HER)的一种Baselines实现,它允许从简单的、二元的奖励
在课程中,你可以建立自己的智能体,然后教他们学会玩太空侵略者,我的世界,星际争霸,刺猬索尼克等等!
检索增强生成(RAG)已成为增强大型语言模型(LLM)能力的一种强大技术。通过从知识来源中检索相关信息并将其纳入提示,RAG为LLM提供了有用的上下文,以产生基于事实的输出。
今天带来的这篇文章,详细的讲解了 BERT 以及和其他模型之间的区别。由深思考人工智能(iDeepWise Artificial Intelligence)投稿。
论文 1:Distribution-Independent PAC Learning of Halfspaces with Massart Noise
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 GPT-4 Office全家桶发布 谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 Copilot,再次闪瞎全世界。从此,不管是Word、PPT、Excel,还是Outlook、Teams、Microsoft Viva、Power Platform,所有这些办公软件,通通都会得到GPT-4的加持! GP
程序设计时代经历了面向机器,面向过程,面向对象,面向领域的时代。随着AI的发展,NLP领域将自然语言大模型的能力也引入到代码任务中,现在程序设计已经进入到了面向自然语言时代。
机器之心报道 编辑:赵阳、张倩 AIGC 正在变革游戏产业。 最近一年来,生成式 AI 在绘画、文本、代码等创作领域的表现越来越成熟,OpenAI 的聊天机器人 ChatGPT 更是将这一趋势推向舆论顶点。而 AIGC 在游戏领域的进展也备受关注,投资公司 a16z 不久前发表过一篇研究文章《AIGC 在游戏中的革命》,认为在所有娱乐类目中,游戏会是生成式 AI 影响最大的领域。 在之前的报道中,我们提到过 AIGC 在游戏音乐、剧情生成中的一些应用案例(见文末「相关阅读」)。此外,还有不少研究者专注于关
我们的任务是将ULMFit(Ruder等人,2018)等监督/半监督技术应用于Twitter美国航空公司情绪分析数据。
詹士 发自 凹非寺 量子位 | 公众号 QbitAI 训练/微调中型GPT,最简单最快的库来了! 其名为:NanoGPT。 从名字就能看出是个“纳米武器”,据作者介绍,该库代码简单易读,2个仅300行代码的文件。 现已基于OpenWebText重现 GPT-2 (124M),在单个8XA100 40GB节点上,训练时间为38小时。 值得一提的是,该库发布者是前特斯拉AI总监,李飞飞高徒,Andrej Karpathy。此次发布的NanoGPT,正是他2年前MinGPT的升级版。 目前,此项目在GitHub
每天给你送来NLP技术干货! ---- 作者 | 朱耀明 单位 | 字节跳动人工智能实验室 研究方向 | 机器翻译 排版 | PaperWeekly 本文提出了一种自监督学习方法,让不同模态的数据可以被建模到同一个离散的细粒度表征中——即用一个类似词表的东西来建模跨模态的数据。作者认为用这种离散化的“词”可以提升跨模态检索的精度、并且让模型有更好的解释性。 论文标题: Cross-Modal Discrete Representation Learning 作者单位: MIT麻省理工学院 论文链接: h
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 就说程序员的手速有多快吧,首个开源ChatGPT项目已经出现了! 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥Phillip Wang复刻了一个ChatGPT出来。 项目GitHub星已经超过1.7k了,而且还在一路飙升ing。 不过一反常态的是,网友们看到“开源ChatGPT”却没有火速开冲,反倒齐刷刷在发问: 这……有人能run? 开源了但没完全开? 项目的核心内容,是在PaLM架构上实现基于人类反馈
随着 LLM(Large Language Model)的应用逐渐普及,人们对 RAG(Retrieval Augmented Generation)场景的关注也越来越多。然而,如何定量评估 RAG 应用的质量一直以来都是一个前沿课题。
从Google的alphago以绝对优势接连战胜人类围棋中的佼佼者(李世石, 柯洁)之后,这总结果当然是震撼的,从此人工智能声名大噪。但是纵使目前能使机器智力超群,围棋上的造诣无人能比,但是它还是连一颗棋子都拿不起来。大家总在畅想未来各种家居机器人会成为我们得力的助手,洗碗做饭洗衣服,任劳任怨不叫苦。当然理想还是要有的,只不过实现起来路还是很长的。现在让机器人学会倒杯水都是很困难的。。。
前言:可以创建AWR基线来为数据库建立已保存的工作负载视图,以便以后用来与其他AWR快照进行比较。
词语和句子嵌入已经成为任何基于深度学习的自然语言处理系统的必备组成部分。它们将词语和句子编码成稠密的定长向量,从而大大地提升神经网络处理文本数据的能力。近日,Separius 在 GitHub 上列举了一系列关于 NLP 预训练模型的近期论文和文章,力求全面地概述 NLP 各个方面的最新研究成果,包括词嵌入、池化方法、编码器、OOV 处理等。
AWR是Automatic Workload Repository的简称,中文叫着自动工作量资料档案库。对于AWR的管理,主要是针对快照和基线的管理而言。比如设定快照的间隔,删除快照,设定快照的保留时间。那对于基线而言则是基线的创建,删除,自动创建等。本文主要描述这2部分的内容。
本文第一部分翻译自Vertical-Align: All You Need To Know,就是之前在CSS上下左右居中参考资料部分提到的待翻译的那一篇
我们要完成的任务是输出JSON字典,并且对其中的每个元素,要输出它的所有父节点。那么很容易想到的做法就是递归解析。
领取专属 10元无门槛券
手把手带您无忧上云