综述 | 解析生成技术在时空数据挖掘中的应用

VachelHu

发布于 2024-06-13 18:33:29

1720

发布于 2024-06-13 18:33:29

文章被收录于专栏：时序人时序人

本文介绍一篇来自香港大学、北京大学、南洋理工大学、清华大学等8所学校及企业联合发布的综述工作。该综述考虑到时空数据的显著增长和多样性，重点关注将生成技术整合到时空数据挖掘中。随着RNNs、CNNs和其他非生成技术的进步，研究人员探索了它们在捕获时空数据内部的时间和空间依赖关系中的应用。然而，诸如LLMs、SSL、Seq2Seq和扩散模型等生成技术的出现，为进一步提升时空数据挖掘提供了新的可能性。

本文全面分析了基于生成技术的时空方法，并介绍了一个专为时空数据挖掘流程设计的标准化框架。通过对利用生成技术的时空方法进行详细回顾和新颖的分类，本文使人们对该领域所使用的各种技术有了更深入的理解。此外，本文还强调了有前景的未来研究方向，敦促研究人员更深入地探索时空数据挖掘。它强调需要探索尚未开发的机会并推动知识边界以解锁新见解，并改善时空数据挖掘的有效性和效率。通过将生成技术整合并提供一个标准化框架，本文有助于推动该领域的发展，并鼓励研究人员探索生成技术在时空数据挖掘中的巨大潜力。

【论文标题】A Survey of Generative Techniques for Spatial-Temporal Data Mining

【论文地址】https://arxiv.org/abs/2405.09592

【作者单位】香港大学、北京大学、南洋理工大学、清华大学、西湖大学、昆士兰大学、华为云、奥尔堡大学

引言

随着GPS技术和移动设备的显著进步，时空数据的数量经历了实质性的增长。这种全面的增长涵盖了多种数据类型，包括人类轨迹数据、交通轨迹数据、犯罪数据、气候数据、事件数据等。时空数据的挖掘在多个领域具有重要意义，如城市管理，它有助于有效的决策过程。

最近，随着大型语言模型（LLMs）和扩散模型（DMs）等成功的生成性技术在计算机视觉（CV）和自然语言处理（NLP）领域的出现，研究人员开始探索生成性技术是否能进一步提高时空数据挖掘的性能。这一新的研究方向为时空数据挖掘带来了新的见解，包括零次学习预测和跨多个任务的强大泛化能力。

令人鼓舞的是，最近的研究提供了将生成性技术融入时空数据挖掘方法中能带来显著性能提升的有力证据。这些发现激发了研究人员的高度兴趣，推动了他们深入探索生成性技术在这一领域的内在潜力、优势以及多样化应用。因此，近年来，基于生成性技术的时空数据挖掘研究蓬勃发展，形成了大量相关研究成果。

图1 现有生成式技术应用示意图

尽管已有众多研究聚焦于使用生成性技术进行时空数据挖掘（其中一些具有代表性的研究如图1所示），但该领域的现有综述缺乏专门针对使用生成性技术的时空数据挖掘方法的广泛分析和标准框架。因此，研究者旨在对基于生成性技术的时空数据挖掘方法进行广泛分析。这一分析不仅为时空数据挖掘流程提供了一个标准化的框架，还突出了最近利用生成性技术的开创性研究。

时空数据挖掘的挑战与机遇

时空数据具有两个显著的挑战，这些挑战同时也是时空数据挖掘算法的机遇。

01、相关性

时空相关性指的是数据集中不同空间和时间方面之间的相互依赖关系和联系。这些相关性在实际应用中会引发若干问题和复杂性。

首先，在预测精度方面，时空相关性会在数据中引入复杂的模式和依赖关系。如果未能准确捕捉和建模这些相关性，会导致预测精度下降，从而削弱预测模型在交通预测、天气预报和疾病爆发分析等领域的效果。

其次，在数据预处理和融合方面，时空相关性常常需要将来自多个来源和模式的数据进行整合和融合。将异构数据类型在时空背景下进行对齐是一项挑战，要求细致的数据预处理步骤和融合技术，以确保数据的准确性和一致性。

02、异质性

时空异质性指的是数据集中空间和时间模式的固有变异性和多样性。不同区域和时间段表现出不同的特征、趋势和关系，这种异质性在数据分析中会引发若干问题，并对时空数据挖掘算法提出挑战。主要问题包括：

首先，泛化挑战，时空异质性使得开发能够有效捕捉和表示不同区域和时间段的多样化模式和关系的通用模型和算法变得困难。在一个区域或时间段训练的模型可能无法很好地泛化到其他区域或时间段。

其次，偏差和不完整性，时空异质性可能导致数据收集和表示中的偏差和不完整性。数据在区域和时间上的分布可能不均衡，导致数据集不平衡，从而引入偏差并扭曲时空数据挖掘算法的分析和结果。

时空数据的类型与案例 时空数据结合了空间和时间的元素，可以揭示跨越时空现象的见解，广泛应用于环境监测、交通分析、流行病学、社会科学和城市规划等领域。这些数据通过地理坐标和时间戳表示，便于分析模式、趋势和关系。时空数据可以分为事件数据、轨迹数据、点数据和栅格数据四类。

01、事件数据

事件数据指在特定地点和时间发生的具体事件。事件数据的例子包括犯罪数据或投票数据，其中每个事件都与一个时空位置相关联。除了时空方面，事件数据还可以包括被称为标记变量的额外变量。这些标记变量提供了关于事件的补充信息，例如犯罪数据中的犯罪类型或投票数据中某人投票支持的政治党派。通常，事件数据使用欧几里得坐标系来表示，该坐标系以直线测量距离。然而，在事件发生在道路网络内（如交通事故）的情况下，两个事件之间的距离由沿着路段的最短路径确定，而不是欧几里得距离。

02、轨迹数据 轨迹数据记录了物体随时间移动的空间路径，例如飞行数据和出租车数据。轨迹数据通常通过在移动物体上安装传感器来收集，这些传感器在不同时间间隔记录GPS位置。时间间隔越小，轨迹的精度越高。

图2 事件数据和轨迹数据示意图

03、点数据 点数据是指从一组移动参考点收集的数据，例如气象气球在大气中收集的数据或传感器测量水体表面温度的数据。每个气象站代表一个特定的位置，定期记录温度读数。点数据可以用于重建任意位置和时间的时空场。

图3 不同时间步点数据示意图

04、栅格数据

栅格数据中的参考点是静态的，可以在空间上规则或不规则地分布。栅格数据的观测值在固定时间间隔记录，常见的类型包括卫星图像，每个像素对应栅格网格中的一个单元，包含光谱特征信息；数字高程模型（DEM），表示海拔或地形；气候变量，表示温度、降水和风速；以及土地覆盖或土地使用信息，每个单元表示特定位置的土地覆盖类型，如森林、城市区域、水体或农业用地。

图4 在固定时间和地点以及不固定时间和空间的栅格数据示意图

生成技术在时空数据挖掘中的应用

01、大语言模型（LLMs）

大规模语言模型（LLMs）在自然语言处理和计算机视觉领域表现出色。例如，ST-LLM模型通过将时间步骤作为token处理，从全局视角建模时空依赖关系，显著提升了交通流量预测的准确性。

02、自监督学习（SSL）

自监督学习（SSL）通过未标记数据中的替代任务来学习有用的表示。例如，TrajRCL模型利用对比学习技术，显著提升了轨迹数据的表示学习效果。

03、扩散模型（Diffusion Models）

扩散模型利用正向和逆向过程，模拟时空数据的生成过程。例如，DiffSTG模型将时空图神经网络与不确定性量化特性相结合，提高了预测的准确性和可靠性。

04、序列到序列模型（Seq2Seq）

序列到序列模型（Seq2Seq）广泛应用于处理序列数据的任务，如机器翻译和文本摘要。基于Seq2Seq的时空数据挖掘方法，如Trafformer，通过自注意力机制，显著提高了交通流量预测的精度。

时空数据挖掘的标准框架

研究者提出了一种利用生成技术解决时空数据挖掘挑战的方法。首先讨论数据预处理，然后介绍生成技术的适应性。研究者还专门设置了一个小节来解决特定的时空数据挖掘问题。为提供结构化概述，文中展示了一个概述流程的框架。

图5 框架示意图

图5中展示了利用生成技术进行时空数据挖掘的一般流程。该流程涉及处理从各种位置传感器收集的原始时空数据，包括事件数据、轨迹数据、点参考数据和栅格数据。

首先，创建数据实例来存储时空数据，这些实例可以是点、时间序列、空间地图、轨迹或时空栅格。为了在不同的挖掘任务中应用生成技术，时空数据实例需要转换为特定的数据格式，具体取决于所选择的数据表示方式。这些时空数据实例可以表示为序列数据、矩阵、张量或图。

最后，选择合适的生成技术来处理各种时空数据挖掘任务，如预测、分类和表示学习等。这些模型利用生成技术的独特能力，从时空数据中提取有价值的见解，并解决复杂的时空数据挖掘挑战。

生成技术在时空挖掘任务中的应用

为了清晰说明几种应用的生成技术，即时空表示学习、时空预测、时空推荐和时空聚类，研究者基于生成技术，为现有研究开发了如图6所示的综合分类法，涵盖了四种不同的技术类别：大型语言模型（LLMs）、自监督学习（SSL）、扩散模型（Diffusion）和序列到序列（Seq2Seq）模型。

图6 综合分类法

这些类别中的每一个都提供了独特的方法来应对时空分析中的挑战。在每个类别内，已经进行了特定的研究，以通过针对这些任务的特定生成技术来解决不同类型的时空任务。这个分类法为理解和组织时空分析领域的多样化研究提供了一个有价值的框架，促进了知识的传播，并推动了该领域的进一步发展。

该领域包含各种应用任务的相关工作可以大致分为不同的领域，每个领域都有相应的不同任务的数据集，如表1所示，包括时空表示学习、时空预测和时空推荐。这些领域中的每一个都代表了时空分析中的一个独特焦点，有许多研究致力于推进专门针对每个任务的挑战和需求量身定制的方法论和技术。通过探索这些领域中进行的研究的广度和深度，研究人员可以获得关于应对广泛时空分析任务所采用的多样化方法和创新方法论的宝贵见解，最终推动整个领域的进步。

表1 关于不同应用任务的相关工作，即时空表示学习、时空预测和时空推荐。

未来研究方向

在该综述中，研究者提出了四个潜在方向，并进行了详细描述：基准数据集的偏斜分布、大规模基础模型、时空方法的泛化能力以及与外部知识的结合。

01、基准数据集的偏斜分布

基准时空数据集中的偏斜分布指数据点在空间和时间维度上的不均衡分布。这意味着某些区域或时间段的数据点数量显著多于或少于其他区域或时间段。这种不均衡可能导致数据集对特定位置或时间段产生偏向，进而影响分析或预测的准确性和可靠性。未来的研究应致力于解决这种分布偏差问题，以确保分析和模型的公平性和准确性。

02、大规模基础模型

目前，缺乏广泛的高质量多模态数据集限制了大规模基础模型的探索和发展。因此，迫切需要深入研究这些模型，以提升其在下游任务中的表现，特别是在时空预测领域。通过填补这一研究空白，开发和利用大规模基础模型，可以显著提高各种时空预测应用的准确性和有效性。

03、时空方法的泛化能力

现有的时空分析方法在适应不同任务方面面临挑战，主要是由于其有限的泛化能力。这一限制妨碍了这些方法在各个领域和场景中的有效应用，因为它们难以捕捉不同任务中的复杂性和细微差别。因此，必须探索具有更强泛化能力的新方法，以实现对各种时空分析任务的无缝适应和改进表现。通过解决这一限制我们可以释放时空方法的全部潜力，使研究人员和从业者能够以更灵活和稳健的方式应对多样化的挑战。

04、与外部知识的结合

随着知识图谱的不断发展，探索将这些图谱中衍生的外部知识整合到时空方法中变得越来越重要。外部知识的引入有望增强时空方法的分析能力，使其能够利用更广泛的背景信息和领域专业知识。通过有效利用这些图谱中的丰富知识，研究人员和从业者可以开辟新的途径，提高时空方法在不同应用和领域中的准确性、稳健性和整体表现。因此，探索促进外部知识与时空方法无缝集成的方法，对于推进时空分析领域具有重要意义。

总结

本文揭示了生成技术在时空数据挖掘中的融合，并承认了这一数据领域的增长和复杂性。本文基于生成技术对时空方法进行了全面分析，并介绍了一个针对数据挖掘流程的标准化框架。通过提供全面的综述和新颖的分类法，本文增强了我们对该领域所使用多样化技术的理解。希望这篇介绍能够为从事时空数据研究的学者和工程师提供有价值的参考，推动这一领域的持续创新与发展。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-12，如有侵权请联系 cloudcommunity@tencent.com 删除

数据挖掘