面壁智能：GPT-4o，我是你的破壁人

AIGC新知

发布于 2025-01-17 19:30:58

950

文章被收录于专栏：AIGC新知AIGC新知

面壁智能最近发布了很吊很炸裂的端侧全模态大模型，看演示视频功能很强大，并且支持看图说话、听音说话以及超拟人情感对话支持，参数只有8B！！！

MiniCPM-o 2.6 开源地址：

GitHub：https://github.com/OpenBMB/MiniCPM-o
HuggingFace：https://huggingface.co/openbmb/MiniCPM-o-2_6
Demo：https://minicpm-omni-webdemo-us.modelbest.cn

在我上一篇的openai采访稿里，提到小模型的应用场景，对实时性要求高、资源有限的场景完全实用。

端侧GPT-4o的流式全模态技术，使其能够处理多种类型的数据，包括文本、图像、音频等。这意味着，无论是阅读一篇文章，分析一张图片，还是理解一段语音，端侧GPT-4o都能轻松应对。这种多模态的处理能力，极大地拓展了其应用场景，从智能客服到图像识别，从语音助手到内容创作，端侧GPT-4o都能发挥出色的作用。

端到端的技术架构，确保了数据从输入到输出的高效处理。在传统的AI模型中，数据往往需要经过多个中间环节的处理，这不仅增加了延迟，还可能导致数据丢失或错误。而端侧GPT-4o的端到端架构，直接将输入数据映射到输出结果，大大提高了处理速度和准确性。这对于需要实时响应的应用场景，如自动驾驶、智能安防等，具有重要的意义。

面壁使用体量仅 8B 的端侧模型一举收获音、视、听「铁人三项」全 SOTA。

在实时流式视频理解能力的代表榜单 StreamingBench 上，MiniCPM-o 2.6 性能惊艳，比肩 GPT-4o、Claude-3.5-Sonnet。

在面壁智能官网，我也注意到，面壁在偷偷地从端侧Agent入手，从之前爆火的ChatDev，一个由大模型AI Agent驱动的虚拟软件公司。到已经在提倡的IOA智联网，面壁已经在深入到物联设备上的Agent链接，其实每一个设备就可以搭载端侧模型，可以构建不同角色的Agent。【纯属猜测哈】

ChatDev 拟作一个由多智能体协作运营的虚拟软件公司，在人类“用户”指定一个具体的任务需求后，不同角色的智能体将进行交互式协同，以生产一个完整软件（包括源代码、环境依赖说明书、用户手册等）。

面壁智能联合清华大学NLP实验室，推出了LLM驱动的智能体互联网（IoA），这是一个受互联网启发的智能体通信和协作通用框架。

➤ IoA 论文地址：🔗 https://arxiv.org/abs/2407.07061

➤ IoA 开源地址：🔗 https://github.com/OpenBMB/IoA

IoA创建了一个可以自由注册、互相发现的Agent协作平台，对原有Agent协作工作流进行了跨设备、更多异质Agent开放互联、协作组织方式高度灵活的三个方向扩容。

IoA的核心机制

智能体注册与发现：借鉴即时通信软件机制，新智能体加入时需向服务器发送注册请求并提供能力描述，存储于智能体仓库模块中；智能体可通过服务器的查询模块搜索合适协作者。
自主嵌套团队组建：根据任务需求动态灵活组合智能体，可形成团队和子团队的层级结构。
自主会话流程控制：受言语行为理论启发，采用顺序发言机制和群组聊天状态的有限状态机，使智能体能协调通信、保持结构化对话。
任务分配与执行：任务分配分同步和异步两种类型，任务执行取决于任务性质和智能体能力，集成的第三方智能体通过客户端的智能体集成模块处理任务执行。

IoA的测试效果

IoA 与其他智能体协作“工作流”关键特性对比