首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软推出理解图像内容、解决视觉难题的 AI 模型

周一,微软的研究人员推出了Kosmos-1,这是一种多模式模型,据报道可以分析图像的内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试以及理解自然语言指令。研究人员认为,多模态 AI(集成了文本、音频、图像和视频等不同输入模式)是构建通用人工智能 (AGI) 的关键步骤,它可以在人类水平上执行一般任务。

研究人员在他们的学术论文中写道:“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件,在知识获取和与现实世界打交道方面,语言不是你所需要的全部:调整感知与语言模型。”

Kosmos-1 论文中的视觉示例展示了模型分析图像并回答有关图像的问题、从图像中读取文本、为图像编写标题以及以 22-26% 的准确率进行视觉智商测试(更多内容见下文)。

虽然媒体热议有关大型语言模型 (LLM) 的新闻,但一些 AI 专家指出多模态 AI 是通向通用人工智能的潜在途径,这是一种表面上能够在任何智力任务(和任何智力工作)中取代人类的假设技术. AGI 是微软在 AI 领域的重要业务合作伙伴 OpenAI 的既定目标。

在这种情况下,Kosmos-1 似乎是一个没有 OpenAI 参与的纯微软项目。研究人员称他们的创建为“多模态大型语言模型”(MLLM),因为它的根源在于自然语言处理,如纯文本 LLM,例如ChatGPT。它表明:要让 Kosmos-1 接受图像输入,研究人员必须首先将图像翻译成 LLM 可以理解的一系列特殊标记(基本上是文本)。Kosmos-1论文更详细地描述了这一点:

对于输入格式,我们将输入展平为用特殊标记装饰的序列。具体来说,我们使用 和 来表示序列的开始和结束。特殊标记 和 表示编码图像嵌入的开始和结束。例如,“文档”是文本输入,“段落图像嵌入段落”是图像文本交错输入。

...嵌入模块用于将文本标记和其他输入模式编码为向量。然后嵌入被送入解码器。对于输入标记,我们使用查找表将它们映射到嵌入中。对于连续信号(如图像、音频)的模态,也可以将输入表示为离散代码,然后将其视为“外语”。

微软使用网络数据训练 Kosmos-1,包括The Pile(800GB 英文文本资源)和Common Crawl的摘录。训练结束后,他们在语言理解、语言生成、光学字符识别免文本分类、图像字幕、视觉问答、网页问答和零样本图像分类等多项测试中评估了 Kosmos-1 的能力。据微软称,在其中许多测试中,Kosmos-1 的表现优于当前最先进的模型。

Kosmos-1 负责解决的 Raven IQ 测试示例。

微软

特别令人感兴趣的是 Kosmos-1 在 Raven 的渐进推理中的表现,它通过呈现一系列形状并要求测试者完成序列来测量视觉智商。为了测试 Kosmos-1,研究人员提供了一份完整的测试,一次一个,完成每个选项并询问答案是否正确。Kosmos-1 只能在 22% 的时间内正确回答 Raven 测试中的问题(微调后为 26%)。这绝不是灌篮高手,方法上的错误可能会影响结果,但 Kosmos-1 在 Raven IQ 测试中击败了随机概率 (17%)。

尽管如此,虽然 Kosmos-1 代表了多模式领域的早期步骤(其他人也在追求这种方法),但很容易想象未来的优化可能会带来更重要的结果,让人工智能模型能够感知任何形式的媒体并对其采取行动,这将大大提高人工助手的能力。未来,研究人员表示他们希望扩大 Kosmos-1 的模型大小并集成语音功能。

微软表示,它计划向开发人员提供 Kosmos-1,尽管该论文引用的GitHub 页面在本文发表时没有明显的 Kosmos 特定代码。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230302A04ZA500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券