面壁智能最近发布了很吊很炸裂的端侧全模态大模型,看演示视频功能很强大,并且支持看图说话、听音说话以及超拟人情感对话支持,参数只有8B!!!
MiniCPM-o 2.6 开源地址:
在我上一篇的openai采访稿里,提到小模型的应用场景,对实时性要求高、资源有限的场景完全实用。
端侧GPT-4o的流式全模态技术,使其能够处理多种类型的数据,包括文本、图像、音频等。这意味着,无论是阅读一篇文章,分析一张图片,还是理解一段语音,端侧GPT-4o都能轻松应对。这种多模态的处理能力,极大地拓展了其应用场景,从智能客服到图像识别,从语音助手到内容创作,端侧GPT-4o都能发挥出色的作用。
端到端的技术架构,确保了数据从输入到输出的高效处理。在传统的AI模型中,数据往往需要经过多个中间环节的处理,这不仅增加了延迟,还可能导致数据丢失或错误。而端侧GPT-4o的端到端架构,直接将输入数据映射到输出结果,大大提高了处理速度和准确性。这对于需要实时响应的应用场景,如自动驾驶、智能安防等,具有重要的意义。
面壁使用体量仅 8B 的端侧模型一举收获音、视、听「铁人三项」全 SOTA。
在实时流式视频理解能力的代表榜单 StreamingBench 上,MiniCPM-o 2.6 性能惊艳,比肩 GPT-4o、Claude-3.5-Sonnet。
在面壁智能官网,我也注意到,面壁在偷偷地从端侧Agent入手,从之前爆火的ChatDev,一个由大模型AI Agent驱动的虚拟软件公司。到已经在提倡的IOA智联网,面壁已经在深入到物联设备上的Agent链接,其实每一个设备就可以搭载端侧模型,可以构建不同角色的Agent。【纯属猜测哈】
ChatDev 拟作一个由多智能体协作运营的虚拟软件公司,在人类“用户”指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。
面壁智能联合清华大学NLP实验室,推出了LLM驱动的智能体互联网(IoA),这是一个受互联网启发的智能体通信和协作通用框架。
➤ IoA 论文地址:🔗 https://arxiv.org/abs/2407.07061
➤ IoA 开源地址:🔗 https://github.com/OpenBMB/IoA
IoA创建了一个可以自由注册、互相发现的Agent协作平台,对原有Agent协作工作流进行了跨设备、更多异质Agent开放互联、协作组织方式高度灵活的三个方向扩容。
IoA的核心机制
IoA的测试效果
IoA 与其他智能体协作“工作流”关键特性对比
在GAIA基准测试中,仅接入基础ReAct智能体的IoA表现优于现有方法。
在开放式指令基准测试中,IoA协调AutoGPT和Open Interpreter协作表现卓越,胜率高于单独使用这些智能体。
在Rocobench具身智能体任务测试中,IoA成功率高于Roco Dialog框架,甚至超过Central Plan基准。
在RAG问答场景测试中,基于GPT 3.5的IoA表现达到或超越单个GPT-4,异构知识场景下表现也较出色。
好了,今天的介绍就到这里了,感谢你的阅读。