首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SIGSPATIAL 2025 | 移动基础模型如何破解数据孤岛?MoveGCL让“合作共训”成为可能

SIGSPATIAL 2025 | 移动基础模型如何破解数据孤岛?MoveGCL让“合作共训”成为可能

作者头像
时空探索之旅
发布2025-10-11 13:42:06
发布2025-10-11 13:42:06
1360
举报
文章被收录于专栏:时空探索之旅时空探索之旅

论文标题:Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning

作者:Yuan Yuan*, Yukun Liu*, Chonghua Han, Jie Feng, Yong Li,

* Equal contribution

论文链接: https://www.arxiv.org/abs/2506.06694

代码链接: https://github.com/tsinghua-fib-lab/MoveGCL

机构:清华大学

点击文末阅读原文跳转本文arXiv链接

引言

当GPT等基础模型在语言和视觉领域取得了颠覆性突破,人类移动研究领域却仍面临挑战。个体轨迹数据的高度隐私性和机构间的数据孤岛问题,阻碍了通用、强大的移动基础模型的诞生。

近日,清华大学的研究者们提出了一个名为MoveGCL的可扩展、隐私保护框架,发表于SIGSPATIAL 2025。MoveGCL利用生成式持续学习,使模型能够在不接触任何历史原始数据的情况下,持续学习新知识并进行自我进化。

实验结果显示,MoveGCL的性能不仅接近能够访问所有数据的联合训练,并且显著优于传统的联邦学习方法,同时提供了强大的隐私安全保障。该研究为构建开放、可扩展且隐私友好的下一代移动基础模型,提供了一个全新的思路和框架 。

这一框架为打破数据孤岛提供了可行的技术路径,使得全球各地、分属不同机构的轨迹数据,有望在保护用户隐私的前提下合作共训,共同构建一个不断进化的通用移动基础模型 。

移动基础模型的核心挑战

在人类移动研究中,构建一个既能在不同场景中共享,又能长期迭代更新的基础模型具有重要意义。然而,由于移动数据的独特特性和实际应用环境的复杂性,主要面临以下三大挑战:

  1. 数据隐私与孤岛化:人类轨迹数据高度敏感,难以跨机构共享或联合训练,导致数据孤岛,阻碍了整合、基准测试和协作开发。
  2. 持续进化与遗忘风险:在无法访问以往训练数据的情况下,模型在学习新数据时很容易遗忘旧知识,限制了长期迭代与演化。
  3. 数据异质性:不同地区、人群和数据源间的差异显著,模型必须具备良好的泛化与动态适应能力。

MoveGCL

本文提出MoveGCL框架,通过生成式持续学习有效解决上述核心挑战。其设计主要包括以下三个方面:

图1 MoveGCL框架:(a) 生成式持续学习工作流;(b)基于知识蒸馏的学习方法;(c)模型架构

1. 生成式持续学习:隐私友好的知识继承

如何做到不存储原始数据,却能记住历史知识?MoveGCL的答案是“生成式重放 + 知识蒸馏”。

(1)生成式重放,模型在学习完一个城市后,会留下一个“教师模型”分身。当学习新城市时,这个“教师”会生成足以以假乱真的“伪轨迹”,模拟过去学到的移动模式。这样,新模型(学生模型)就能一边学习新数据,一边温习“教师”传授的旧知识。

(2)知识蒸馏,为了让“学生”更好地领会“教师”的精髓,MoveGCL通过最小化师生模型在生成轨迹上的预测分布差异(KL散度),将知识高效地“蒸馏”传承下去,从而解决了灾难性遗忘问题。

2. 模型架构:模块化设计与跨城市适应

城市移动模式纷繁复杂,一个“通才”模型难以应对。MoveGCL引入了混合专家网络(MoE),将模型从“单核”升级为“多核专家团队”。

为增强模型在异质性城市任务中的可扩展性与泛化能力,MoveGCL采用模块化架构,主要包含以下三个核心组件:(1)泛化的位置编码器,采用连续化的位置表示方法,将 POI 、人流活跃度与归一化的经纬度嵌入映射至共享潜在空间,以捕捉跨城市的可迁移语义与空间特征。(2)MoE Transformer与移动特征感知路由:使用MoE架构,每个专家负责特定模式,通过逐层渐进适应与新增专家机制,避免新知识覆盖旧能力;同时利用移动行为特征修正路由权重,将相似模式导向一致的专家子集,促进跨城市知识迁移。(3)基于相似性的解码器,通过计算MoE网络的最终输出与候选位置表示的相似性预测下一个位置,位置表示由DCN建模,以捕捉特征交互与非线性关系。

3. 渐进式分层解冻:稳定更新与知识保留

为在持续学习中兼顾模型稳定性与适应性,MoveGCL引入渐进式分层解冻的参数更新策略:分阶段更新,将训练过程划分为多个阶段,每次仅解冻一对对称的 MoE Transformer 层,其余层保持冻结,从而在逐步注入新知识的同时,不破坏已有能力;参数微调,在解冻层中,仅更新路由模块、新增专家和低频专家,同时持续优化活动特征编码器。

图2 渐进式分层解冻的参数更新策略

实验评估:性能表现与隐私保护分析

本文在六个规模和特征各不相同的真实世界城市数据集(亚特兰大、芝加哥、洛杉矶、纽约、西雅图、华盛顿特区)上对MoveGCL进行了评估。

1. 整体性能

实验将MoveGCL与多类基线方法进行了比较,涵盖传统方法、深度学习模型、联邦学习框架以及具备隐私保护的持续学习模型。结果显示,MoveGCL在跨城市泛化能力上表现突出,其Acc@1相较于传统独立训练的深度学习模型平均提升了8%。相较于联邦学习方法,MoveGCL在准确性和稳定性上均表现更优。与具备隐私保护的MoveGCL变体相比,则进一步展现了在新数据适应性与已有知识保持之间的更优平衡。

图3 MoveGCL与不同基线的性能比较
图3 MoveGCL与不同基线的性能比较

图3 MoveGCL与不同基线的性能比较

2. 隐私评估

由于MoveGCL在生成式持续学习中不能保留之前城市的原始数据,生成的合成轨迹是否可能泄露训练数据十分关键。为严格评估其隐私保护能力,本文从三个角度进行了分析:

(1)唯一性测试:随机抽取训练轨迹并生成对应的合成轨迹,通过计算时间戳和位置完全匹配的比例评估相似性。结果显示,超过95%的生成轨迹与真实轨迹的相似度均低于50%,表明模型的输出是基于已学知识,而非直接复制训练数据。

图4 唯一性测试中相似度排名前1、前3和前5的累积分布(CFD)

(2)成员推理攻击:使用生成轨迹与原轨迹的相似度作为分类特征,分别通过逻辑回归、支持向量机和随机森林评估攻击成功率。实验结果显示,各数据集的攻击成功率约为50%,接近随机猜测,表明MoveGCL不易受到成员推断攻击。

图5 成员推理攻击下三种分类算法正负样本识别的准确率
图5 成员推理攻击下三种分类算法正负样本识别的准确率

图5 成员推理攻击下三种分类算法正负样本识别的准确率

(3)差分隐私:在两组训练集(包含或排除少量轨迹)下训练模型,并生成合成轨迹,通过统计合成轨迹相似度的分布估算隐私预算ε。结果显示,75%合成轨迹的ε在1到3之间,无需额外机制即可获得合理的隐私保护水平。

图6 六座城市差分隐私预算𝜀的统计特征
图6 六座城市差分隐私预算𝜀的统计特征

图6 六座城市差分隐私预算𝜀的统计特征

3. 持续学习参与顺序的影响测试

MoveGCL的性能在不同城市数据引入顺序下较为一致,显示出顺序不敏感的学习特性。在原始顺序与反转顺序之间,大多数指标的偏差均小于5%。该实验结果表明,即使城市数据引入顺序发生显著变化,MoveGCL仍能有效整合新数据,同时保持对已有知识的稳定保留。

图7 持续学习顺序鲁棒性实验结果

4. 生成数据量对持续学习性能影响评估

在生成式持续学习中,合成数据回放被用于保留旧知识而无需访问原始数据。而回放数据量的选择十分关键,过少容易遗忘,过多则增加计算和冗余。实验表明,增加回放量能提升旧城市的保留性能,但对新城市的适应影响较小。因此,适度的数据生成能在保持知识与控制开销间实现平衡,支持模型的长期可扩展性。

图8 持续学习阶段生成不同数量的数据对模型性能的影响
图8 持续学习阶段生成不同数量的数据对模型性能的影响

图8 持续学习阶段生成不同数量的数据对模型性能的影响

5. 消融实验:

本文进行了两组消融实验,第一组针对移动特征感知路由的输入特征,第二组针对增量学习机制本身。实验结果显示,移除任何移动特征感知路由的输入特征均导致性能下降;同样,禁用知识蒸馏也会明显降低模型表现。这表明,每种输入特征对专家选择都十分重要,而知识蒸馏在持续学习过程中对模型稳定性和已有知识保留具有关键作用。

图9 消融实验结果
图9 消融实验结果

图9 消融实验结果

结论

总而言之,MoveGCL的提出不仅仅是一个新颖的模型,更重要的是,它为如何破解移动数据的隐私孤岛、实现“合作共训”这一行业难题,提供了一套完整、可行的训练范式。它标志着在通往开放、可扩展且隐私安全的移动基础模型道路上,迈出了关键的一步。

这项研究为长期的、隐私安全的人类移动建模铺平了道路,其影响将延伸至城市规划、交通优化和循证决策等多个重要领域。当然,正如所有基础模型一样,其能力的上限取决于数据的广度和深度。作者在文末也指出,更大规模、语义更丰富、地理上更多样化的移动数据集,对于提升模型的泛化能力和鲁棒性至关重要。

因此,我们呼吁更广泛的研究社区和数据持有机构能够加入这项协作努力,共同为移动领域打造开放、包容且强大的基础模型。

欢迎大家阅读论文原文、试用代码,共同推动移动行为建模研究的边界。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • MoveGCL
    • 1. 生成式持续学习:隐私友好的知识继承
    • 2. 模型架构:模块化设计与跨城市适应
    • 3. 渐进式分层解冻:稳定更新与知识保留
  • 实验评估:性能表现与隐私保护分析
    • 1. 整体性能
    • 2. 隐私评估
    • 3. 持续学习参与顺序的影响测试
    • 4. 生成数据量对持续学习性能影响评估
    • 5. 消融实验:
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档