地理空间行业面临的主要挑战是筛选卫星收集的大量图像。能够检测特定物体(如建筑物、汽车和树木)的专用模型可以通过传统的监督机器学习来完成,但实用性被专用性限制了。在通用基础模型的时代,自然希望能有一个基础模型,既能理解地球图像,又能理解自然语言,还能进行查询。由于视觉语言模型(VLM)--更具体地说是遥感视觉语言模型(VLM)的最新发展。
在这篇博文中,我们将仔细分析过去几个月中出现的两种优秀的视觉语言模型: SkyCLIP [1] 和 RemoteCLIP [2],它们都公开了自己的代码、数据集和模型权重。利用这些模型,可以展示了 “可查询的地球 ”功能,该功能使用文本可以查询地理区域内的图像及其地理位置。
什么是视觉语言模型?
虽然这一术语尚未完全定型,但在本文章中,我们将视觉语言模型(VLM)定义为基础模型够将图像和文本编码到同一嵌入空间的基础模型输入到同一位置。
OpenAI 的ContrastiveLanguage-I mageP再训练 (CLIP) 模型 [3]是这一领域的开创性,该模型是在从互联网上搜索 4 亿个图像-文本对组成的庞大数据集上训练而成的,该模型于 2021 年推出,并为此后 DALL-E 图像生成工具的所有迭代提供了支持[4, 5, 6]。这项并不开放的 OpenAI 工作最终由 OpenCLIP 项目[7]向公众开放,此后被广泛用于为特定领域创建微调的 CLIP 模型,如医疗领域,以及更相关的地理空间图像领域。
这种微调非常重要,因为一般的 CLIP 模型在训练过程中会看到各种图像(OpenCLIP 模型在多达 20 亿图像上进行了训练!),包括卫星图像和航空图像,但这些图像只是各种馆藏卫星图像的一小部分。此外,这些图像所附带的文本不太可能具有很强的描述性或很高的质量(这是 CLIP 数据集的一个普遍问题,详细讨论见 [6])。
遥感视觉语言模型
因此,为卫星和航空图像提供高质量的描述性说明是创建遥感视觉语言模型的主要挑战。RemoteCLIP [2] 和 SkyCLIP [1] 都采用了非常有创意但又截然不同的方法来解决这个问题。
RemoteCLIP 采用带有物体检测和语义标签的现有数据集,并将其转换为自然语言,例如,来自飞机检测数据集,边界框靠近中心的图像会产生标题 “一架飞机在图片中间”。这些生成的标题与其他现有的图像-文本数据集相结合,产生了一个包含约 800K图像-文本的训练数据集。
另一方面,SkyCLIP 采用了一种类似但更具可扩展性的方法,即从 OpenStreetMap【https://www.openstreetmap.org/】 语义标签中启发式地生成文字说明。这些文字说明都经过了自动过滤,过滤的依据是这些文字说明是否代表视觉特征,以及在相应图像的分辨率下是否能看到这些特征。SkyScript 数据集包含 260 万个图像和文本,涵盖 29K 个不同的文字标签。
最后,GeoRSCLIP 模型和相应的 RS5M 数据集[8]也是一项类似的工作,尽管这项工作没有对其进行研究。该数据集不是新的标题,遥感图像文本是从现有的大规模通用图像文本数据集中提取的。
大规模查询
那么,我们如何利用这些模型,使图像可以用自然语言进行查询呢?答案:相似性搜索。我们只需对感兴趣的区域进行切片,使用 VLM 为这些切片创建图像嵌入,并将这些嵌入存储在矢量数据库或其他格式中。在搜索时,用户的自然语言查询将使用相同的 VLM 转换为矢量嵌入,并与存储的嵌入进行比较,以找到最接近的匹配。
将这种方法大规模应用于大面积地理区域时,最能体现其强大的功能和实用性。下面的可视化图展示了这种方法在整个马萨诸塞州的 NAIP 图像中的应用。我们可以看到,即使是 “空地上的一棵树 ”这样复杂的查询,我们也能获得极佳的匹配结果。
分辨率的兼容性
SkyCLIP 和 RemoteCLIP 对不同分辨率都表现出很强的兼容性,可以轻松处理哨兵-2 和 NAIP 图像。这并不特别令人惊讶,因为它们的训练数据集都包含多种不同分辨率的图像,因为这意味着我们不需要为每颗卫星配备不同的 VLM。
费城周边哨兵-2 图像中 “机场 ”的 RemoteCLIP 匹配结果。
构建这种搜索能力时的一个重要参数是芯片大小。两种模型在不同芯片大小下似乎都能很好地工作。下面,我们看到了相同查询在不同芯片大小下的SkyCLIP匹配结果。
SkyCLIP 在马萨诸塞州上空的 NAIP 图像中,为不同芯片尺寸的 “大型水体上的一座长桥 ”进行匹配。
计数对象
如果以上还不够令人印象深刻,RemoteCLIP还具有的物体计数能力,如图所示。
最后的想法和预测
提高这些模型的最好方法是通过更高质量的文字搜索。理想的解决方案是由人们创建这些文字,但这种方法成本过高且难以扩展,这正是当前基于启发式方法的原因。这也意味着有很大的改进空间。在这种情况下,DALL-E 3通过自顶向下构建更好的文字模型的方法是可行的。
另一个改进的轴心,特别是与地理空间图像相关的,是支持非RGB波段。如果我们可以在地球上的任意位置选择一个任意窗口,并使用OpenStreetMap标签生成一个标题,就像SkyScript所展示的那样,那么我们没有任何理由不能为任何传感器构建一个图像文本数据集。
例如RSGPT来创建用于遥感的视觉语言聊天AI。这些聊天AI专门回答关于单个图像特定内容的有针对性问题。构建一个的基本方法是将预训练的VLM和预训练的LLM拼接在一起,并使用LLaVA等技术在指令数据集上进行微调。
领取专属 10元无门槛券
私享最新 技术干货