首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

阶跃星辰CEO姜大昕:强化学习不是AI的尽头,下一步是自主学习,Agent将成超级应用

作者 | 梁昌均

编辑|杨锦

“十年前,大家谈起通用人工智能(AGI),觉得这是一个遥不可及的梦想。但随着大模型的飞速进步,今天越来越多的人开始相信AGI在未来的几年就会成为现实。”2月21日下午,阶跃星辰创始人&CEO姜大昕在生态开放日上演讲时提到。

阶跃星辰是一家成立于2023年的大模型公司,由微软前全球副总裁、微软亚洲互联网工程研究院副院长姜大昕创办,此前获得上海国资、腾讯、五源资本、启明创投等投资,并位列六小龙之列。

姜大昕表示,阶跃在成立之初,就规划了实现AGI的路线图,包括模拟世界、探索世界和归纳世界三个阶段。

在模拟世界阶段,训练模型的主要范式是模仿学习,学习的主要目标是各种模态的表征,下一步是培养模型能够解决复杂问题的能力。人脑对复杂问题的解决是启动系统2的模式,通过问题拆解不断探索。

“如何让模型也能够学会这种探索的过程,学会慢思考,采用的方法就是强化学习。AlphaGo以及最近非常火热的DeepSeek,采用的就是强化学习的训练方法。”姜大昕提到。

不过,姜大昕认为,强化学习还不是AI的尽头,AI的下一个尽头是机器能够通过自主学习,主动发现物理规律。

对于最近爆火的DeepSeek,姜大昕认为,它开源了模型,为整个AI社区做出了了不起的贡献。“受到DeepSeek的感召,我们在近期发布了两款开源的多模态大模型。”

他提到的这两款模型是300亿参数的文生视频模型,以及1300亿参数的语音模型Step Audio。“我们希望通过这两款多模态大模型的的开源,助力开发者创建出更丰富多彩的应用出来。”

姜大昕还透露,阶跃正在研发推理模型Open-Reasoner-Zero,其方案相比DeepSeek-R1- Zero,效率可以达到25倍,并表示会开源实验结果、代码数据以及论文。

同时,阶跃还在研发视觉推理模型。姜大昕认为,视觉和文本一样,遇到复杂的问题,还是需要慢思考和思维链的能力,如何把强学习的方法能够引入视觉领域,实现慢思考,这是前沿的问题。

对于大模型的应用发展,姜大昕认为,随着Agent逐渐升温,已经成为海内外公认的AI超级应用。

他表示,Agent最重要的特点是能够自主帮助人类完成复杂的任务。所谓自主有两层含义,一个是自动,在执行任务的时候尽可能自动完成,减少或者无需人类的干预;一个是主动,Agent能够观察用户所处周围的环境,主动发起或者完成任务,而不是仅仅被动接受任务。

“为什么Agent会在眼下这个时间点突然变得火热,以至于很多人认为2025年将是Agent元年,我想这是因为Agent的爆发需要两个必要条件,一个是多模态的能力,一个是慢思考的能力,这两个能力在2024年的时候都实现了。”姜大昕说。

他进一步解释到,多模态的能力能够使Agent充分的理解和感知世界,更好的理解用户任务。除了多模态的能力,想要让任务的完成率或效率更高,还需要强大的推理,也就是慢思考的能力。

“现在机器的思考的能力还是比较弱,它只能思考几十秒钟,最多达到几分钟。”姜大昕认为,随着模型能力不断增强,机器思考的时间会变得越来越长,这意味着距离AGI的目标会越来越近。

同时,他认为未来会出现不同形态的Agent,未来每一台终端设备都会有一个Agent,它具备的能力会从简单任务、组合任务、复杂任务,升级到主动发起任务和最后的情感陪伴。

///全文完///

运营编辑|李阳

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9YuCHaMcN5NReYlBv_YkGhQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券