前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递9.19

每日学术速递9.19

作者头像
AiCharm
修改2023-09-27 12:44:24
2620
修改2023-09-27 12:44:24
举报
文章被收录于专栏:AiCharm

1.NExT-GPT: Any-to-Any Multimodal LLM

标题:NExT-GPT:任意对任意多模式大语言模型

作者:Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua

文章链接:https://arxiv.org/abs/2309.05519

项目代码:https://next-gpt.github.io/

摘要:

虽然最近多模态大型语言模型(MM-LLM)取得了令人兴奋的进步,但它们大多受到仅输入端多模态理解的限制,而无法以多种模态生成内容。由于我们人类总是通过各种方式感知世界并与人们交流,因此开发能够以任何方式接受和交付内容的任意 MM-LLM 对于人类水平的人工智能至关重要。为了填补这一空白,我们提出了一个端到端通用的任意 MM-LLM 系统 NExT-GPT。我们将 LLM 与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够感知输入并以文本、图像、视频和音频的任意组合生成输出。通过利用现有训练有素的高性能编码器和解码器,NExT-GPT仅使用某些投影层的少量参数(1%)进行调整,这不仅有利于低成本训练,而且便于方便地扩展到更多潜在的方式。此外,我们引入了模态切换指令调整(MosIT),并为 MosIT 手动策划了高质量的数据集,在此基础上 NExT-GPT 被赋予了复杂的跨模态语义理解和内容生成的能力。总的来说,我们的研究展示了构建能够对通用模式进行建模的人工智能代理的巨大可能性,为社区中更多类人人工智能研究铺平了道路。

2.CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders(ICASSP 2024)

标题:CoLLD:用于压缩多语言预训练语音编码器的对比层对层蒸馏

作者:Heng-Jui Chang, Ning Dong, Ruslan Mavlyutov, Sravya Popuri, Yu-An Chung

文章链接:https://arxiv.org/abs/2309.07707

摘要:

大规模自监督预训练语音编码器在语音识别和翻译任务中优于传统方法。由于开发这些大型模型的成本很高,为新任务构建新的编码器并将其部署到设备上的应用程序是不可行的。先前的研究提出了模型压缩方法来解决这个问题,但这些工作侧重于较小的模型和不太现实的任务。因此,我们提出了对比层对层蒸馏(CoLLD),这是一种新颖的知识蒸馏方法,通过利用屏蔽预测和对比学习来训练学生模型来复制大型教师模型的行为,从而压缩预训练的语音编码器。CoLLD 的性能优于现有方法,并缩小了多语言语音到文本翻译和识别基准上小型模型和大型模型之间的差距。

3.The Rise and Potential of Large Language Model Based Agents: A Survey

标题:基于大型语言模型的代理的兴起和潜力:调查

作者:Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang

文章链接:https://arxiv.org/abs/2309.07864

项目代码:https://github.com/WooooDyy/LLM-Agent-Paper-List

摘要:

长期以来,人类一直在追求相当于或超越人类水平的人工智能(AI),而人工智能代理被认为是实现这一追求的有前途的工具。人工智能代理是感知环境、做出决策并采取行动的人造实体。自 20 世纪中叶以来,人们为开发智能 AI 代理做出了许多努力。然而,这些努力主要集中在算法或训练策略的进步,以增强特定任务的特定能力或性能。事实上,社区缺乏的是一个足够通用和强大的模型来作为设计能够适应不同场景的人工智能代理的起点。由于它们表现出的多功能和卓越的能力,大语言模型(LLM)被认为是通用人工智能(AGI)的潜在火花,为构建通用人工智能代理带来了希望。许多研究工作都利用法学硕士作为构建人工智能代理的基础,并取得了重大进展。我们首先追溯智能体概念的哲学起源及其在人工智能领域的发展,并解释为什么法学硕士是人工智能智能体的合适基础。在此基础上,我们提出了一个基于 LLM 的代理的概念框架,包括三个主要组成部分:大脑、感知和行动,并且该框架可以根据不同的应用进行定制。随后,我们探讨了基于LLM的智能体在单智能体场景、多智能体场景和人与智能体合作三个方面的广泛应用。接下来,我们深入研究代理人社会,探讨法学硕士代理人的行为和个性,他们形成社会时出现的社会现象,以及他们为人类社会提供的见解。最后,我们讨论该领域内的一系列关键主题和开放问题。

我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-19 09:53,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档