孙群:多源矢量空间数据融合处理技术研究进展

《测绘学报》

构建与学术的桥梁 拉近与权威的距离

多源矢量空间数据融合处理技术研究进展

孙群

信息工程大学地理空间信息学院, 河南 郑州 450052

收稿日期:2017-07-26;修回日期:2017-09-11

第一作者简介:孙群(1963-), 男, 博士, 教授, 博士生导师, 研究方向为数字地图制图与地理信息处理

摘要:矢量空间数据既是人类社会与地理环境信息的重要组成部分,也是相关社会信息的重要载体,在国民经济和国防现代化建设中起着非常重要的作用。多源矢量空间数据融合处理技术是解决多源数据在几何位置、属性特征等方面不一致性问题的有效方法,近年来相关的技术和应用得到了深入发展。本文在分析二维矢量空间数据应用所面临问题的基础上,综述和评价了二维矢量空间数据几何特征融合、属性特征融合等相关理论、算法和技术的研究现状,并根据目前的研究展望了其理论和应用未来的重点研究方向。

关键词:矢量空间数据同名实体匹配属性特征数据融合

Research on the Progress of Multi-sources Geospatial Vector Data Fusion

SUN Qun

Abstract: Geospatial vector data plays a crucial role in the national economy and the construction of the national defense modernization for it's not only the important component of human social and geographical environment information, but also a key carrier of relevant social information. The technology of the multi-source geospatial vector data fusion is a valid method of solving the inconsistency questions of the multi-source data in geometric position, attribute feature, etc. In recent years, its relevant technology as well as its application also has deeply developed. Based on the analysis of the questions in the application of the two-dimensional geospatial vector data are facing, the research status of the theory, algorithm and technologies of geometric feature fusion and attribute feature fusion of the two-dimensional geospatial vector data are overviewed and evaluated, with the current research status, whose theory and application of the future focus of research are looked forward to in this paper.

Key words:geospatial vector dataidentical entity matchingattribute featuredata fusion

矢量空间数据是指与地理和空间分布有关的、反映现实世界各种现象及其变化的一类带有空间坐标的数据,包含了地理空间实体的几何位置信息、空间形态信息、空间关系信息以及属性语义信息等。当前随着矢量空间数据获取与处理技术的迅猛发展,矢量空间数据日益增多。矢量空间数据在广泛应用的同时,也伴随着一系列亟待解决的问题:

(1) 矢量空间数据生产时采用的地理信息标准和数据处理要求不同,造成了矢量空间数据存在许多差异性,给矢量空间数据应用带来诸多不便。国民经济众多部门从各自需要出发,生产了为数众多的矢量空间数据,由于这些数据生产时执行各自的地理信息标准和数据处理要求,采用了特定的空间数据模型和空间数据存储格式,给地理信息应用带来不便,给不同部门之间的矢量空间数据共享带来极大困难,加大了数据生产成本,造成人力、物力的极大浪费。

(2) 矢量空间数据获取的途径和时间不同,使矢量空间数据在内容详细程度和现势性方面也有很大差别,导致所生产的矢量空间数据在尺度、版本、几何位置和形状等方面存在不一致性,影响了矢量空间数据的质量和现势性。再加上矢量空间数据生产周期较长,矢量空间数据的更新还达不到持续、高效、动态和准确的要求。矢量空间数据的多样、新旧不一和内容详略不同给数据应用也带来不小的困难。

多源矢量空间数据融合理论和方法是解决上述问题的有力工具,它能对多源矢量空间数据进行空间基准、数学基础、尺度、内容和空间关系的一致性处理,保证数据的一致性。基本思路是先进行多源数据的收集和评定,对可用的数据先进行集成,也就是采用空间基准变换、数据格式转换以及属性编码对应等手段将多源多尺度矢量空间数据集成在一起,初步完成点位位置、图形形状和内容详略的统一与协调,然后分析多源矢量空间数据在尺度、属性和空间关系上的联系与区别,进行矢量空间数据几何和属性匹配,对相关数据进行几何形状和属性信息的修改更新,从而完成矢量空间数据几何信息、属性信息、空间关系的融合和一致性处理,经检查无误后得到融合后的新的矢量空间数据。

多源矢量空间数据融合属于地球空间数据融合的范畴,地球空间数据的融合研究始于20世纪60年代,地理信息系统的出现和应用以及多源数据的使用推动了空间数据融合研究及其应用[1]。本文针对二维矢量空间数据的融合处理,从几何特征融合处理、属性特征融合处理等方面分析多源矢量空间数据融合的理论与技术发展现状,并结合其面临的机遇和挑战,对多源矢量空间数据融合的未来发展做出展望。

1 几何特征融合处理技术

几何特征融合是多源矢量空间数据集成融合的核心内容。几何特征融合是解决同名地物在不同数据库中地理位置不一致问题的关键技术,通常包括同名实体的识别和匹配后的调整变换两个过程。其中,同名实体匹配就是利用相同地理实体在几何特征、拓扑关系和语义信息等方面的相似性,识别不同数据库中的同一地物,是矢量空间数据融合必然要解决的问题。匹配后的调整变换实际是进行数据更新、编辑加工的过程,可以使空间数据内容和质量准确可靠。

1.1 同名实体匹配

多源矢量空间数据融合的主要任务之一就是解决多源数据在几何位置上的不一致性,主要手段就是进行同名实体的数据匹配。同名实体匹配是依据一定的地理实体特征,计算相同地理实体在不同数据源中的相似度和差异度[2-3],从而对其进行识别的过程。这些特征包括地理实体的几何特征、拓扑特征和语义特征等,当前的同名实体匹配方法均是围绕上述某个或某几个特征展开的。同名实体匹配研究最早始于美国人口调查局和地质测量局合作开发的地图自动合并系统[4]。随着研究的不断深入,各种新颖的算法与智能算法思路的引入层出不穷,大大提高了算法结果的精度。

1.1.1 基于几何特征的匹配方法

基于地理要素的几何特征进行同名实体匹配的算法,是所有匹配算法中最基本和最常用的算法,利用几何特征进行同名实体匹配的原理是:通过度量地理要素的一个或几个几何特征的相似度,利用先前设置的阈值来判断是否属于同名地理要素。不同方法之间的差异主要体现在几何特征与匹配单位的选择以及相似度的判断方式等方面。

常见的几何特征包括地理要素之间的距离、形状描述、方向趋势等,不同匹配算法对这些几何特征的数学描述上面略有差异。如点实体匹配多采用距离(欧几里得距离)指标量衡量匹配对象间的相似度,如位置最近算法[5]、相互位置最近算法[6]等。线实体常用的匹配几何相似度指标包括距离、长度、方向、最大弦、组成面积等。其中空间距离是进行线实体匹配最常用的指标,如文献[7-9]采用Hausdorff距离,文献[10]采用L2距离,文献[11-13]采用Fréchet距离,如图 1所示;面实体匹配则多利用面要素的形状特征进行,主要包括面积、曲率、转折点、不变距与实心度等。

在相似度的计算和度量方面,可以将不同的相似度计算转换为概率计算[14],也可以将不同路段相似性度量转换为结点到路段的距离[15],还有的是基于典型地物与待匹配点空间关系的匹配算法[16]。

此外,在进行线要素的匹配时,有基于缓冲区重叠的方式,即以匹配线段为基准建立缓冲区,以待匹配的线段落入该缓冲区范围的长度判断两者是否为同名实体,利用缓冲区增长法进行了道路网匹配[17-20]。在匹配基本单位的选择方面,大部分学者都使用以“节点-弧段”的方式进行匹配[15,21-24];而有些学者则提出了基于全局一致性的匹配思路,摒弃了结点或弧段作基本匹配单元的做法,根据道路网结构,以道路stroke作为基本单元[25];还有学者是将道路数据划分为路径、路段和线段3个等级分别进行匹配[7]。随着智能仿真算法的发展,也有学者将其应用到同名实体匹配中,利用蚁群智能算法,将道路网匹配问题转换为全局寻优的数学优化问题,在度量目标间的相似性时利用了距离和拓扑结构[26];还有个别学者提出了利用多元Logistic回归模型匹配算法[27]。

面实体匹配是近些年来同名实体匹配研究的热点和难点,引起了国内外学者的广泛关注。面实体匹配的方法很多,如基于影像的面状水体提取方法和基于模糊理论的面实体匹配方法[28-29];从降维和傅里叶变化的角度出发,通过提取能反映居民地主要特征的骨架线,把多源面状居民地之间的匹配转化为线的匹配方法[30];采用不变矩的矢量面目标匹配方法[31];通过综合多种面实体几何相似度指标,如位置、形状、大小、方向等,进而加权评分计算总相似度对面实体进行匹配[32-35];采用拓扑匹配与空间相似性匹配相结合的方法,将两种方法进行顺序、双向和循环运用,有效解决实体对象1:1、1:M、N:M等的匹配方法[36];将中误差引入面实体匹配的过程,利用面实体的空间临近关系,通过两次匹配优化面实体匹配结果的方法[37]。综合上面所提到的面实体匹配方法,都可归纳成为以下4类:基于位置邻近度的相似性匹配方法、基于叠置面积的相似性匹配方法、基于形状的相似性匹配方法、综合因素的面实体匹配方法。

1.1.2 基于拓扑特征的匹配方法

拓扑匹配是以目标实体与待匹配实体之间的拓扑特征相似度作为匹配依据。拓扑关系是最基本的空间关系,具有在几何变换下不变的特点和性质。常见的拓扑关系主要包括:邻接、关联、包含等,在同名实体匹配中可以利用这些拓扑信息。例如,在线实体匹配过程中,可以先进行节点匹配,再确定与节点相关联弧段的匹配关系[38-39]。由于拓扑关系的特点,拓扑匹配通常与几何匹配结合在一起使用,很少独立使用。基于空间关系相似性的面状居民地匹配算法[40],以初始匹配居民地为参照物对目标面状居民地与待匹配面状居民地之间的拓扑关系、方向关系和距离关系进行形式化表达,提出了由于该方法是依据已匹配对象确定未匹配对象,因此,初始匹配居民地的选择是此方法的关键。利用拓扑和空间相似性的面实体匹配方法[41],它综合考虑了面实体的拓扑特征与几何特征,与仅利用拓扑特征或者几何特征的相似性匹配方法相比,该方法不仅能够解决一对多、多对多的匹配问题,而且具有较好的匹配效果。该方法的不足之处是匹配方法涉及的阈值和权重的设置存在主观性因素。

1.1.3 基于属性特征的匹配方法

此外,还有基于地理要素的属性信息进行同名实体匹配的方法,其原理是利用不同数据源对相同地理现象的基本性质描述相同或相近的特点。例如,在同一区域的海图和陆图数据中,两个三角点名称的属性值都是“西蟹峙”,仅利用三角点的名称就可以确定两者为同名实体。文献[42]设计实现了一个土地利用的地理本体,用于计算属性之间的相似度。文献[43]采用中文近似字符串匹配算法BPM-BM进行了地名数据匹配。文献[44]针对传统地名匹配算法的不足,提出了汉字地名专名相似度计算方法与汉语地名通名语义相似度计算方法。由于不同数据源属性信息可能存在较大的差别或属性信息难以保证完整性,因此基于属性信息的匹配方法并不多用,很多时候是作为一个匹配特征同几何特征与拓扑特征共同使用。

1.2 几何位置调整

几何位置调整是对多源数据进行选取、化简、更新、关系协调等操作在内的加工整合,最终得到新的、质量更高的数据。矢量空间数据经过数据集成和匹配,不同来源的数据之间并没有发生实质的相互作用,仍保持着其各自的数据特征。要使空间数据产生“质”的飞跃,必须进行数据调整变换。目前关于匹配后的位置调整等融合处理操作的研究不多,主要的方法如下。

1.2.1 基于同名点三角剖分的地物调整方法

1988年,Saalfeld首次提出了基于同名点三角剖分的地物调整方法[45-46]。该算法首先使用基于点实体匹配算法所得的匹配点分别在首先将同一地区不同来源的图形数据中建立拓扑同构的Delaunay三角网,然后在各个三角形子区域内建立坐标转换方程,再根据顶点坐标求解相关参数后将三角形内所有点进行坐标变换。但是由于同一个顶点可能存在于多个三角形中,该点需要在每一个三角形中都经过上述变换,会出现节点处扭曲的问题。针对该问题,文献[47]提出了带边界约束的三角网剖分和带权重的三角网剖分等改进算法。文献[48]分别在影像数据和矢量数据中建立Delaunay三角网,然后通过匹配同名特征点的方法建立两种数据的位移关系,如图 2所示。

1.2.2 基于拓扑关系的合并变换算法

该算法将点实体分为“已调整点”和“待调整点”,其中“已调整点”是成功匹配到同名点的数据,其坐标由相应的同名点确定(加权平均坐标或直接调整到对应点),“待调整点”是未匹配到同名点的点。其算法认为“待调整点”的几何位置变换关系受“已调整点”的影响,因此该算法的重点就是确定“待调整点”受哪些“已调整点”的影响及其影响大小。很显然,该算法重点在于“待调整点”的位置坐标变换,但其根本在于“已调整点”的位置精度,但其“已调整点”的位置变换则过于简单[49-50]。

1.2.3 基于平差原理的地物调整方法

该算法首先将同一地区不同来源的图形数据分为“调整图”和“参照图”,然后根据“调整图”和“参照图”中的同名匹配点对建立坐标位移变换方程[51]。为了计算其中的坐标调整量(即平差改正数),算法设计了坐标移位方程、形状方程、相对位移方程和其他方程(面积方程、平行线方程、线段长度方程、邻近实体距离方程等),然后采用约束违反定权法确定相应约束的违反值,最后联立方程组,采用按照间接平差的最小二乘解法求得坐标调整量。

1.2.4 基于多评价因素的调整变换算法

该算法选择要素对周围地物的影响度、要素位置的准确度和要素在不同来源数据中的重要性对地物要素进行综合评价并确定影响权重,然后为了综合不同评价因素的影响,采用加权平均的方法实现同名要素的合并变换[52-53]。

由以上几个调整变换算法可以看出,空间实体调整变换通常是根据实体匹配结果,将整个待调整区域划分为几个子区域,然后在各个子区域内建立局部的坐标变换关系,进而实现不同来源空间实体对象的调整变换。此外,文献[54]根据“数据同化”的思想,提出了基于最优插值的点集合并算法和线要素合并算法,效果显著。

2 属性特征融合处理技术

多源矢量空间数据属性特征融合的研究重点是不同语义之间的匹配问题,即发现或计算不同来源数据的语义映射关系或相似度。对于语义匹配而言,其匹配算法的核心是计算属性信息之间的相似度,包括基于字符串的方式和基于词典的方式,后者主要利用已有的词典识别出词与词之间是否近义或存在上下文关系等。在属性内容融合方面,矢量数据间的属性融合主要通过属性字段的映射转换进行,常用的方法有基于转换规则的方法和基于语义匹配的转换方法。

2.1 基于映射转换规则的属性融合

该方法主要通过建立不同源数据间的要素分类分级映射规则和属性特征项转换规则,实现语义层次上的属性特征关系映射和源数据集到目标数据集的属性特征项转换,进而完成数据属性融合。文献[55]在深入了解Shapefile数据和地理信息交换数据的属性表结构以及属性数据内容特点后,建立了包含实体间编码和属性字段对应关系的逻辑控制模型,实现了Shapefile数据和地理信息交换数据的属性数据转换与融合。文献[56]在介绍国外空间数据语义差异的基础上,提出了基于外部控制表的语义转换方法,能够解决同一存储格式不同语义编码的数据转换。文献[57]根据标准地理数据格式建立了地理要素重分类分层与编码转换映射表,实现了CASS DWG数据的“无损转换”和标准化转换入库。基于映射转换的方法,需要制图专家的参与,协助制定这些转换规则,是属于半自动化的转换。

2.2 基于地理本体的属性融合

基于地理本体的属性特征融合是近年来该问题的研究重要之一,涌现出了许多成果。该方法通过本体来描述异构数据源间的语义,包括单一本体、多本体和混合本体等方式[58]。文献[59]利用字符串和语义词典相结合的方法进行语义匹配,对Schema中元素的名称进行分词、去词缀、扩展缩写等处理,在处理过程中以词典作为参考,然后通过字符串比较计算相似度。文献[60]提出了一个面向一般图的语义相似度计算算法。文献[61]研究了地理本体的概念映射、语义互操作、形式化概念分析及概念格等多个方面。文献[62]比较了描述层次的XML、谓词逻辑层次的CML以及更复杂、形式化程度更高的只是交换格式KIF等本体语言。文献[63]通过地理本体实现了不同数据间的属性信息融合,并以水系要素中的“干出滩”类为例进行了实例研究。文献[64]利用支持双向映射的混合本体模式来解决全局本体与各应用本体之间的冲突,实现数据的语义集成,有效克服了数据间语义异质性问题。文献[65]利用本体模型通过karma工具对不同来源的结构化地理信息进行语义映射及异构性消除,然后对数据中不同特征进行相似度计算,利用机器学习方法行训练,进而实现多源数据的融合。文献[66]采用多本体模式构建了一种基于本体的地理信息集成框架,通过等级和角色的使用。该地理本体模式有效表达了现实世界的等级结构和地理实体的不同特征,实现了不同细节层次之间和不同领域本体网络之间的联系。

在语义匹配领域,也取得了很多成果。文献[67]提出了一种面向对象的匹配方法,利用本体进行地理信息建模,不仅能够维持空间对象拓扑关系,还考虑了语义的一致性。文献[68]提出了一种基于网格服务的语义匹配方法,通过建立相关领域的本体库从而为服务功能的语义匹配提供支持。文献[69]提出了语义相似度的计算方法,并利用模糊层次聚类的方法得出匹配的最终结果,文献[70]提出了顾及通名语义的汉语地名相似度匹配算法。总体来讲,目前语义匹配的研究多是基于地理本体的相关研究内容而展开,并取得了许多实用成果。

随着互联网技术和移动通信技术的发展,具有地理标识的非传统空间数据(如签到数据、社交媒体数据、新闻文本数据、多媒体数据等)大量产生,开始发挥着越来越重要作用,如果将位置作为一种空间维度标准与现有矢量数据进行融合,将极大丰富空间数据的属性内涵。

3 多源矢量空间数据融合面临的挑战

多源矢量空间数据融合技术是利用多源数据进行地图生产与更新的有效手段。但是,随着数据获取方式的发展、数据形式的变化、地图生产与更新需求的改进,多源矢量空间数据融合技术的发展面临着一系列新的问题,需要进一步的研究。

(1) 基础理论研究需要进一步加强。多源矢量空间数据融合的理论和方法处于起步研究阶段,还有大量工作需要研究。如上面所述,其主要研究的是多源空间数据在属性和几何位置上更深层次的相互印证、相互补充、相互关联和相互匹配处理。而当前无论是从理论还是实践上来看都还没有形成完整的理论和技术体系。研究者们对矢量空间数据差异性的具体表现和产生的地学根源很少研究;对于矢量空间数据集成与融合处理过程中所遵循的各种规则和标准研究的不断深入。

(2) 技术手段需要交叉融合。多源矢量空间数据融合处理研究主要包括空间数据几何信息,属性信息融合处理的规则、算法研究,多源空间数据尺度的融合处理研究等。当前的研究往往集中在上述的某一个方面,而没有从整体和全局的角度去研究空间数据融合,各个研究部分之间缺乏联系与配合,整个过程缺乏有效的控制。另外,目前空间实体的几何相似性度量模型还不是很完善,大多数模型没有考虑空间数据多尺度的特点;多尺度空间数据匹配的规则目前还没有深入的研究;语义相似性度量模型大多是基于语义距离的模型,其主要问题是边权值的确定还没有一个具体的标准。

(3) 需要开展多源矢量空间数据尺度融合处理研究。描述空间实体几何形状或者属性信息的详细程度在地学领域则被称之为“尺度”或者“分辨率”,在地图学领域将其称之为“比例尺”。本文中,“尺度”的概念扩展到属性信息表达的详细程度,即空间数据尺度融合处理的不仅包括几何形状的融合处理,而且包括属性信息的融合处理。多源矢量空间数据尺度融合处理研究主要包括两个方面的内容:① 利用自动制图综合技术来解决多源矢量空间数据在几何尺度上的差异性,这是由大比例尺数据派生小比例尺数据所不可避免的问题。重点研究实用性较好、效率较高的线与面化简算法、双线中轴线的提取算法、面转化为点的算法、面合并的算法等;② 研究具有不同尺度矢量数据中属性信息(即描述空间实体的属性信息采用不同的详细程度)融合的方法。主要解决两个层面的问题:一是当空间数据的几何尺度发生变化后,就有可能需要对原有的某些属性信息进行聚类、归并和重新修改填补;二是当多个空间数据集的几何尺度基本一致,而属性信息的详细程度不一致时,就需要通过几何匹配和属性匹配技术找到同名实体,然后进行属性信息的相互印证和相互补充。通过行之有效的多源矢量空间数据几何特征融合、属性特征融合以及尺度融合处理研究,检测矢量空间数据的局部变化,有效实现矢量空间数据的持续和快速更新。

4 结束语

随着各种地理信息服务的普及化和大众化,地理信息数据的制作门槛在不断降低,可用的数据资料变得数量越来越多、种类越来越繁杂。为了能够使地理信息数据在保持精准的同时,还能够做到“与时俱进”,需要能够科学合理地利用数据资料,博采众家之长。多源矢量空间数据融合处理技术必须加快发展,迎接挑战。本文基于对近年来多源矢量空间数据融合处理关键技术研究的总结,对几何特征融合处理、属性特征融合处理等所涉及的理论问题、技术算法等方面作了分析和总结,最后指出了多源矢量空间数据融合存在的问题及发展趋势。

【引文格式】孙群。多源矢量空间数据融合处理技术研究进展[J]. 测绘学报,2017,46(10):1627-1636. DOI: 10.11947/j.AGCS.2017.20170387

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180217B06T5I00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券