微软推出理解图像内容、解决视觉难题的 AI 模型

文章来源：企鹅号 - 互联热搜圈

周一，微软的研究人员推出了Kosmos-1，这是一种多模式模型，据报道可以分析图像的内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试以及理解自然语言指令。研究人员认为，多模态 AI（集成了文本、音频、图像和视频等不同输入模式）是构建通用人工智能 (AGI) 的关键步骤，它可以在人类水平上执行一般任务。

研究人员在他们的学术论文中写道：“作为智能的基本组成部分，多模态感知是实现人工智能的必要条件，在知识获取和与现实世界打交道方面，语言不是你所需要的全部：调整感知与语言模型。”

Kosmos-1 论文中的视觉示例展示了模型分析图像并回答有关图像的问题、从图像中读取文本、为图像编写标题以及以 22-26% 的准确率进行视觉智商测试（更多内容见下文）。

虽然媒体热议有关大型语言模型 (LLM) 的新闻，但一些 AI 专家指出多模态 AI 是通向通用人工智能的潜在途径，这是一种表面上能够在任何智力任务（和任何智力工作）中取代人类的假设技术. AGI 是微软在 AI 领域的重要业务合作伙伴 OpenAI 的既定目标。

在这种情况下，Kosmos-1 似乎是一个没有 OpenAI 参与的纯微软项目。研究人员称他们的创建为“多模态大型语言模型”(MLLM)，因为它的根源在于自然语言处理，如纯文本 LLM，例如ChatGPT。它表明：要让 Kosmos-1 接受图像输入，研究人员必须首先将图像翻译成 LLM 可以理解的一系列特殊标记（基本上是文本）。Kosmos-1论文更详细地描述了这一点：

对于输入格式，我们将输入展平为用特殊标记装饰的序列。具体来说，我们使用和来表示序列的开始和结束。特殊标记和表示编码图像嵌入的开始和结束。例如，“文档”是文本输入，“段落图像嵌入段落”是图像文本交错输入。

...嵌入模块用于将文本标记和其他输入模式编码为向量。然后嵌入被送入解码器。对于输入标记，我们使用查找表将它们映射到嵌入中。对于连续信号（如图像、音频）的模态，也可以将输入表示为离散代码，然后将其视为“外语”。

微软使用网络数据训练 Kosmos-1，包括The Pile（800GB 英文文本资源）和Common Crawl的摘录。训练结束后，他们在语言理解、语言生成、光学字符识别免文本分类、图像字幕、视觉问答、网页问答和零样本图像分类等多项测试中评估了 Kosmos-1 的能力。据微软称，在其中许多测试中，Kosmos-1 的表现优于当前最先进的模型。

Kosmos-1 负责解决的 Raven IQ 测试示例。

微软

特别令人感兴趣的是 Kosmos-1 在 Raven 的渐进推理中的表现，它通过呈现一系列形状并要求测试者完成序列来测量视觉智商。为了测试 Kosmos-1，研究人员提供了一份完整的测试，一次一个，完成每个选项并询问答案是否正确。Kosmos-1 只能在 22% 的时间内正确回答 Raven 测试中的问题（微调后为 26%）。这绝不是灌篮高手，方法上的错误可能会影响结果，但 Kosmos-1 在 Raven IQ 测试中击败了随机概率 (17%)。

尽管如此，虽然 Kosmos-1 代表了多模式领域的早期步骤（其他人也在追求这种方法），但很容易想象未来的优化可能会带来更重要的结果，让人工智能模型能够感知任何形式的媒体并对其采取行动，这将大大提高人工助手的能力。未来，研究人员表示他们希望扩大 Kosmos-1 的模型大小并集成语音功能。

微软表示，它计划向开发人员提供 Kosmos-1，尽管该论文引用的GitHub 页面在本文发表时没有明显的 Kosmos 特定代码。

发表于: 2023-03-022023-03-02 15:09:06
原文链接：https://kuaibao.qq.com/s/20230302A04ZA500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

微软推出理解图像内容、解决视觉难题的 AI 模型

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐