耦合腾讯街景照片和高分辨率遥感影像的土地利用场景分类

文章来源：企鹅号 - 空间规划大数据联盟

导读

许多研究表明，多源社交媒体数据在揭示城市土地利用模式方面具有很大的潜力。本文以广州市海珠区为研究区域，通过采用机器学习和自然语言处理模型从HSR影像和街景照片中提取潜在语义信息，进而对广州市海珠区的土地利用进行分类和评估。详情见下文。

文章作者

刘鹏华

中山大学

刘鹏华

中山大学硕士研究生，研究方向为机器学习和时空大数据分析、计算机视觉和图像处理。

1、引言

土地利用和土地覆盖(Land Use Land Cover，LULC)包含丰富的地理空间信息，对于城市规划、政府管理和可持续发展领域具有重要意义。中国经济和城市的快速发展，产生了城市土地利用模式的多元化和复杂的城市功能区。然而，城市土地利用模式不仅受到政府政策的影响，还受到城市发展持续变化的影响。因此，有效地识别城市土地利用模式，对于制定有效的城市规划政策具有重要意义。

高空间分辨率(High Spatial Resolution，HSR)遥感影像被广泛应用于提取和分析LULC。分析城市LULC主要以像素、对象、场景三种空间单元为主要研究对象，面向像素和面向对象的方法通常用来评估土地覆盖，而场景通常用于识别城市功能区域和精细的城市土地利用模式。许多研究采用面向对象的分类模型（Object-Oriented Classification，OOC），利用地物的物理特征提取城市土地利用模式。然而，OOC模型只能挖掘土地覆盖的低层语义信息，因而往往忽略了地物的空间分布和高层语义特征。由于存在“语义鸿沟”，传统的遥感分类模型也难以识别出精细的土地利用分类。

简单地说，低级语义特征表征直接来自数据的“信息”，而高级语义特征指的是“知识”，语义鸿沟即这两个层次之间的特征差异。在图像识别领域，低级特征可以直接从图像数据中提取而来，例如颜色和纹理，仅仅用于描述图像的物理属性。由于忽略了地物之间可能具有相同的物理属性，或者相同的地物可能拥有不同的属性，因此只采用低级特征的图像分类通常是不准确的。为了弥补LULC之间的“语义鸿沟”，近年来有部分研究将场景分类的概念引入到HSR影像分类中。其中大多数研究采用词袋（Bag-of-Word， BOW）建模，通过概率主题模型融合地面场景的物理特征来提高城市土地利用的识别精度。然而，从遥感图像中提取的特征只能代表地物的外在自然物理性质，而土地利用类型往往与人类社会经济活动有很强的相关性，很难从HSR影像中提取出来。

为了解决这个问题，“社会感知”和“城市计算”的概念被提出。多源社交媒体，如GPS定位、浮动车、移动电话、社交媒体的签到数据以及POIs等，都被引入用于监测人群移动模式和城市土地利用动态监测。许多研究表明，多源社交媒体数据在揭示城市土地利用模式方面具有很大的潜力。近年来，街景照片被应用到城市绿量估计、城市意象研究中，却很少应用到HSR的土地利用识别研究中。

本研究旨在结合HSR影像和街景照片，从不同的观测视角识别土地利用结构。通过采用机器学习和自然语言处理模型从HSR影像和街景照片中提取潜在语义信息，进而对城市土地利用进行分类和评估。本研究提出的模型被应用于识别广州市海珠区的土地利用空间格局。

2、研究区和数据

2.1

研究区

本研究选取广州市海珠区作为研究区域（如图1）。广州是中国南方的政治、文化和经济中心，作为广州市四个中心城区之一，海珠区总面积102平方公里，常住人口约101万，城市结构非常复杂，包含住宅小区、购物中心、临床设施、教育建筑等多种多样的土地利用结构。

图1 海珠区区位图

2.2

研究数据

（1）路网数据

（2）高分辨率遥感影像数据

（3）腾讯街景照片数据

本研究的街景图片来源于腾讯街景地图（http://map.qq.com/），通过网络爬虫的方式采集腾讯街景照片，如图2所示。在获取数据时，首先将海珠区划分为100m×100m的网格单元，以网格单元中心查询街景照片。相机在垂直方向拍摄角度为0°，以确保能采集更丰富的街景信息；水平方向拍摄角度分别设置0°、90°、180°和270°获取其前、后、左、右四个方向的街景照片。基于该方法获取的海珠区街景照片约为60000张，每张照片的行列数目为400和720。

图2 腾讯街景照片示例图

（4）土地利用数据

参考《城市用地分类与规划建设用地标准（GB50137-2011》，将海珠区城市用地精细分为7类，包括公服用地、工业用地、绿地、商业用地、居住用地、公园和城中村（如图3）。

图3 海珠区土地利用图

3、研究方法

图4 耦合腾讯街景照片和高分辨率遥感影像的土地利用场景分类研究流程图

耦合腾讯街景照片和高分辨率遥感影像的土地利用场景分类的流程主要包括以下四步：

（1）从高分影像中提取光谱、纹理和空间包络特征（GIST特征），从腾讯街景照片中提取GIST特征。

（2）采用K-Means的方法将提取的光谱、纹理、空间包络特征以及腾讯街景照片的空间包络特征聚为多类，以此构建视觉单词，每个单词采用K-Means的聚类标签作为其类别。

（3）通过将TAZ视为文档，分别统计TAZ内各类视觉单词的数目，进而构建语料库作为主题模型的输入。通过隐狄利克雷分配（Latent Dirichlet Allocation，LDA）模型挖掘潜在语义特征，并将其表征为高维语义向量。

（4）通过融合多源语义主题分布，采用支持向量机（Support Vector Machine，SVM）模型进行土地利用分类。

3.1

特征提取

HSR影像包含丰富的光谱和空间信息，其中HSR影像的光谱和纹理特征能够反映地表元素的内部成分变化。为了提取复杂场景的特征，本研究设计了三种特征用于HSR影像的场景分类。在特征描述符提取之前，首先从每个TAZ中随机选取N个边长为l像元的正方形影像斑块，作为视觉单词。

（1）光谱特征

光谱特征反映了地物要素和结构的属性。在每个光谱通道中计算光谱均值和标准差作为光谱特征。影像斑块的第j个波段的光谱特征如下：

式中，meanj和stdj分别表示第j个波段的光谱均值和光谱方差，n为影像斑块内的有效像元数目，vij表示该斑块内第i个有效像元的第j波段的光谱值。光谱特征为一个包含光谱均值和方差的多维向量，其形式如spectral = ，其中B为波段数。

（2）纹理特征

灰度共生矩阵(Gray-Level Co-occurrenceMatrix，GLCM)有效地描述了图像纹理的模式，本研究基于GLCM提取了影像斑块的纹理特征，包括相关性、对比性、能量、同质性。与光谱特征相似，纹理特征可以表征为texture = { coorelation1, contrast1, energy1, homogeneity1, ..., coorelationB, contrastB, energyB, homogeneityB }

（3）空间包络特征

本研究引入了GIST特征来描述图像的场景级特征。GIST特征能在宏观层面上描述图像的特征，是对场景的抽象描述，目前已经在自然场景识别中取得了较高的精度。GIST被认为是一个通用的空间包络特征描述符，可以充分描述五个不同的空间包络场景，包括自然度、开放性、粗糙度、膨胀度和强度。在本研究中，我们将每个影像斑块分割成4×4个块，并计算每个波段的主要特征，GIST特征可以表征为一个1536维的向量：gist = 。

同时，本研究还计算了每张街景照片的GIST特征sv_gist，其形式仍为1536维的向量。

3.2

视觉单词聚类构建语料库

对于分割后的某块影像（类似TAZ），通过在其内部随机选取N个样本影像斑块，分别提取其光谱、纹理、GIST特征，采用K-Means聚类的方式分别将每类特征的所有视觉单词聚为k（k

对于街景照片，通过提取其GIST特征，同样采用PCA将其进行降维，以单张照片作为一个单词进而采用K-Means进行聚类，得到街景照片语料库。

3.3

基于LDA模型提取主题特征

基于3.2中得到的各类语料库，采用LDA模型进行主题建模。LDA是一种文档主题生成模型，它是一个三层贝叶斯概率模型，如图 5，LDA模型包含词、主题和文档三层结构。在LDA生成过程中，认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词也服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为易于建模的数字信息。词袋方法没有考虑词与词之间的顺序，一方面简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。在本研究中，整个研究区作为语料库包含多个文档（TAZ），文档由词频（视觉单词频数）向量构成，基于LDA模型可以挖掘出每个文档中的高级主题分布，主题特征相较于词频低维语义特征，对于场景理解具有更好的效果。

图5 LDA模型

3.4

特征语义融合和土地利用分类

将各类特征的主题语义分布融合，并将其作为特征输入SVM模型，进行土地利用分类。研究区共包含了593个TAZ，从中选取50%进行SVM模型的训练，剩下的50%用于模型的验证，模型采用总体精度（Overall Accuracy，OA）和Kappa系数来评估。在模型的训练过程中，选取75%的训练样本作为训练集，其余的25%作为验证集。SVM模型选取高斯核作为核函数，通过网格寻优的方法来调整参数C和Nu值，使得验证集的精度最高。

4、研究结果与讨论

采用以上提出的模型进行海珠区的土地利用识别。研究首先基于拓扑综合过的OSM路网对高分影像进行分割，并采用人工解译的方式将TAZ分为公共管理与公共服务用地、工业用地、绿地、商业服务业用地、居住用地、公园和城中村7类。为了对比，除了本研究提出的模型，还设计6种数据特征组合用于对比，因此本研究设计了以下7种特征组合：

（1）仅采用高分影像的光谱特征进行分类；

（2）仅采用高分影像的纹理特征进行分类；

（3）仅采用高分影像的GIST特征进行分类；

（4）仅采用街景照片特征进行分类；

（5）采用光谱特征和纹理特征进行分类；

（6）采用光谱特征、纹理特征和GIST特征进行分类；

（7）采用光谱特征、纹理特征、GIST特征和街景照片特征进行分类。

其中，（7）为本研究提出的模型。

4.1

分类结果分析

对海珠区土地利用的场景分类对比结果如图6所示，图6(a) ~(g)分别对应以上（1）~（7）七种不同的特征组合的分类结果。图7为不同方法的分类结果混淆矩阵图，其中（1）~（7）与以上7种组合对应，F代表公服用地，I代表工业用地，G代表绿地，C代表商业用地，R代表居住用地，P代表公园，V代表城中村，数据经过归一化处理。结合图6和图7可以看出，总的来说公服用地（F）、商业用地（C）和公园（P）的错分率较高，而其他四类用地的分类精度整体较高。为了对比分析，本研究选取了#1 ~ #5等五个局部区域分析不同特征组合的对比结果。#1主要包括南方医科大学、广东省轻工业技师学院等教育公共服务类用地，#2主要包括广州香格里拉大酒店和保利国际广场等商业设施，#3为大围公园，#4为瀛洲生态公园，#5为南天商业城、五金交电城、南洲商业广场等商业类设施。从图6可以看出，对于#1等公服用地，仅采用高分影像特征总是将其分类为居住用地，而采用街景照片会将其识别为工业用地，这是因为居住用地与公服用地在遥感影像上均呈现为密集的小面积建筑物，而在街景照片中，公服用地与工业用地具有一定的相似度。对于#2和#5等商业用地，（1）~（6）容易将其与工业用地混淆，而结合多源数据特征的方案能比较准确地区分工业用地和商业用地。对于#3和#4等公园用地，采用高分影像光谱和纹理等特征会将其与绿地混淆，事实上，采用纹理特征能一定程度上区分开绿地和公园（例如#4），但是结合街景照片能更准确地识别出这两种用地类型的差异，这是因为街景照片中具有景观建筑等公园的信息。当然，不可否认，引起这3类用地分类精度较低的原因除了与其他类别之间的相似度较高，也因为这3类用地的地块数目较少，导致训练样本类别不均衡而导致错分率较高。但是整体来说，通过耦合高分影像和街景照片的多视角特征信息，模型在错分和漏分上具有非常大的性能改善。

图6 土地利用场景分类对比结果图

图7 不同方法的分类结果混淆矩阵

4.2

分类结果精度对比分析

从分类精度分析，如图8所示，总体来看，多种数据特征组合的分类结果均比采用单一数据特征的分类结果精度高，表明耦合多源数据能更准确地挖掘和揭示土地利用的特性。采用光谱、纹理、GIST和街景照片特征的分类结果精度最高（OA=0.838，Kappa=0.789），仅采用街景照片特征的分类结果精度最低（OA=624，Kappa=0.523）。当采用单一数据进行土地利用场景分类时，光谱特征的效果最佳，说明不同的土地利用在光谱特性上仍然有较大的差异，但精度仍旧不高（OA=0.686，Kappa=0.604）。而在此基础上融合纹理特征后，分类精度有较大的提升（OA=0.774，Kappa=0.712），OA和Kappa分别提高了12.83%和17.88%。在光谱和纹理特征中耦合GIST特征进行土地利用分类效果有进一步的提升（OA=0.803，Kappa=0.748），OA和Kappa分别提高了3.75%和5.06%，表明高分影像的GIST特征在一定程度上有助于识别城市土地利用格局。融合高分影像的特征与地面街景照片的特征能获得最高的分类精度，其OA和Kappa分别达到了0.838和0.789。在刻画城市空间结构方面，街景照片能从更微观和直接的视角透视城市内部空间结构的差异，与高分辨率遥感卫星数据相互结合进而能获得更高的分类精度和更深层次的观测视角。

图8 分类精度对比图

4.3

参数敏感性分析

然而，本研究提出的模型结构较为复杂，参数较多，在每个TAZ中选取的视觉单词数目、视觉单词的长和宽、视觉单词的聚类数目、LDA模型设定的主题数目、SVM的训练参数等都是较为敏感的模型参数。为了简化，在每个TAZ内选取200个25×25像元的视觉单词，并将其聚类为100类。Liu等人（2017）的研究表明聚类数目对于模型分类精度影响不大，因此本研究仅探讨LDA主题数目对模型分类精度的影响。

图9为不同主题数目下，模型分类精度的变化情况。从中可以看出，总体而言，主题数目为10个时，模型分类精度最高；当LDA的主题数目小于10个时，分类精度随着主题数目的增加而提高；当LDA的主题数目大于10时，分类精度随着主题数目增加而总体降低。原因可能为，当主题数目太多时，样本维度太高，在样本数目较少的情况下（本研究中场景数目为593）模型不易于收敛。而当主题数目太少时，样本特征所表达的信息不全，模型欠拟合，这在主题数目小于5个时尤为明显。对于多类用地的分类问题，10个主题所描述的场景信息较为丰富，而且主题维度相对于样本数目来说不算太高，因而能达到最好的分类效果。

图9 不同主题数目情形下的模型分类精度

5、结论与分析

本研究尝试通过融合高分辨率遥感影像的光谱、纹理、GIST特征和街景照片的特征，在TAZ单元上对土地利用进行场景分类。首先，在TAZ内随机选取视觉单词并提取其光谱、纹理、GIST特征，并且提取TAZ内街景照片的GIST特征。其次，采用K-Means聚类分别基于4类特征对TAZ构建词袋模型，统计TAZ内每类单词的词频分布，构建主题模型的语料库。最后，采用LDA模型挖掘TAZ的高级主题特征，并训练SVM分类器对土地利用进行分类。结果表明，采用多种数据特征的分类结果均比采用单一数据特征的分类结果精度高，这说明耦合多源数据能更准确地挖掘和表达土地利用的特性。相比于只采用高分影像特征进行分类，耦合街景特征和高分影像特征的模型能获得最高的分类精度（OA = 0.828， Kappa =0.779），说明街景照片能从更微观的视角揭示城市内部空间结构的特性。

本研究创新性地在场景分类中引入了街景照片，从卫星俯视的角度和街景车平视的角度对土地利用信息进行深度挖掘，提高了分类精度。通过街景照片，我们能够从更微观、更深层的视角揭示城市的空间布局和意象。然而，只有可通行路网附近可以获取街景照片，这就导致街景照片在空间分布上的不均匀性，在一定程度上会导致不包含街景照片或街景数据较少的地块被错分。而且，本研究提出的模型结构较为复杂，参数较多，可以考虑简化模型，提高效率，应用于更大尺度地区的场景分类。另外，街景照片中包含的建筑标识物等的文字信息，对于理解城市具有非常大的潜力，可以考虑通过深度学习技术挖掘街景照片中更深层次的语义信息。

编辑：林冬娜、邓小云

发表于: 2018-06-272018-06-27 07:00:12
原文链接：https://kuaibao.qq.com/s/20180627G0798W00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

耦合腾讯街景照片和高分辨率遥感影像的土地利用场景分类

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐