首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TKDE 2025 | ST-LLM+:面向交通预测的图增强时空大语言模型

TKDE 2025 | ST-LLM+:面向交通预测的图增强时空大语言模型

作者头像
时空探索之旅
发布2025-07-14 16:24:59
发布2025-07-14 16:24:59
3860
举报
文章被收录于专栏:时空探索之旅时空探索之旅

论文标题:ST-LLM+: Graph Enhanced Spatio-Temporal Large Language Models for Traffic Prediction

作者: Chenxi Liu(刘晨曦) , Kethmi Hirushini Hettige , Qianxiong Xu , Cheng Long(龙程),Shili Xiang , Gao Cong(丛高), Ziyue Li(黎子玥), Rui Zhao(赵瑞)

机构:南洋理工大学(NTU),新加坡科技研究局(A*STAR),慕尼黑工业大学(TUM),科隆大学(Cologne),商汤科技(SenseTime)

论文链接https://ieeexplore.ieee.org/abstract/document/11005661/

Codehttps://github.com/kethmih/ST-LLM-Plus

TL;DR:本文针对交通预测中时空建模不足、跨域泛化弱、计算开销大的挑战,提出了基于图增强与LoRA微调的ST-LLM+模型,分别建模了全局时序知识与局部图邻接依赖,实现了高效准确的零/少样本跨域预测。

ST-LLM+ 在 ST-LLM 的“冻结-微调”思想上,进一步引入 图结构掩码 + LoRA,实现了显式空间建模、参数高效、跨域稳健三大升级。

点击图片跳转前作ST-LLM(MDM2024)的论文解读

关键词:交通预测,大语言模型,时空数据,时空图

图片
图片

点击文末阅读原文跳转本文IEEE链接 

摘要

交通预测是数据管理系统的关键组成部分,它利用历史数据学习时空动态特性以预测未来交通状况,从而实现高效决策和资源分配。尽管学界不断开发日益复杂的架构,现有交通预测模型仍难以在不同数据集和场景中实现泛化,限制了其在实际应用中的适应性。与传统交通预测模型不同,大语言模型(LLMs)主要通过参数扩展和大规模预训练实现进步,同时保持其基础结构不变。

本文提出ST-LLM+模型——面向交通预测的图增强时空大语言模型。该模型通过将交通网络衍生的基于邻近度的邻接矩阵整合至校准后的大语言模型,有效捕捉交通网络内复杂的时空依赖关系。其中设计的部分冻结图注意力(PFGA)模块,既能保留大语言模型预训练期间习得的全局依赖关系,又能建模交通领域特有的局部化依赖特征。为降低计算开销,ST-LLM+采用LoRA增强训练策略,使注意力层可通过更少的可训练参数进行微调。

在真实交通数据集上的综合实验表明,ST-LLM+性能优于当前最先进模型。值得注意的是,该模型在少样本和零样本预测场景下均展现出强劲性能。案例研究进一步证实,ST-LLM+能有效捕捉站点间的全局与局部依赖关系,验证了其在交通预测任务中的有效性。

Q: 这篇论文试图解决什么问题?

A:这篇论文(ST-LLM+)试图解决交通预测任务中现有模型难以同时有效捕捉复杂时空依赖关系、泛化能力差、以及计算开销大的问题。具体而言,它针对以下三个关键挑战:

核心问题与动机

  1. 时空建模不足
    • 现有方法(如GNN或Transformer)要么侧重空间关系(图卷积),要么侧重时间序列(RNN/Transformer),难以联合建模交通网络中非欧几里得的空间结构动态时间依赖的复杂交互。
    • 传统LLM-based方法(如ST-LLM[28])仅将时间序列分词为“空间令牌”,忽略了图结构中的局部邻接关系(如道路连通性对拥堵传播的影响)。
  2. 泛化能力弱
    • 小模型依赖特定数据集训练,跨域(如从出租车数据迁移到共享单车数据)或零样本场景下性能骤降。
    • LLM的预训练知识未被充分利用,且直接微调全参数会导致灾难性遗忘(丢失通用时序建模能力)。
  3. 计算效率低
    • 全参数微调LLM(如GPT-2)在交通预测中参数量巨大(百万级),训练成本高且易过拟合。

ST-LLM+的解决方案

通过三项关键设计,针对性解决上述问题:

  1. 图增强的时空LLM(PFGA模块)
    • 将交通网络建模为图,通过邻接矩阵引导的注意力掩码,显式捕捉空间邻近性(如相邻路口的交通影响)。
    • 部分冻结LLM的前F层(保留预训练的通用时序知识),仅在后U层引入图注意力,平衡全局与局部依赖。
  2. LoRA高效微调
    • 对注意力层引入低秩矩阵分解(LoRA),仅训练少量参数(如3.76%),大幅降低计算开销。
  3. 跨域稳健性验证
    • 通过零样本(NYCTaxi→CHBike)和少样本实验,证明模型能迁移预训练知识到未见过的交通场景

Q: 有哪些相关研究?

A: 这篇论文(ST-LLM+)在“Related Work”部分系统梳理了两大类相关研究:

Large Language Models(LLMs)在时空数据上的应用

类别

代表工作

特点

与ST-LLM+的关系

时间序列LLM

OFA [30]、TEMPO-GPT [26]、LLM4TS [39]

基于GPT-2微调,专注时序建模,忽略空间依赖

ST-LLM+引入图结构,弥补空间建模不足

多模态/提示学习

PromptCast [32]、Time-LLM [27]、UniTime [31]

将时间序列转为文本提示,或对齐文本与时序空间

但未处理图结构中的非局部空间依赖

时空LLM早期探索

ST-LLM [28]、UrbanGPT [29]、UniST [44]

首次将LLM用于时空预测,但仍未显式建模图结构信息

ST-LLM+在此基础上引入图注意力与部分冻结策略

交通预测领域的传统/深度学习方法

类别

代表工作

特点

与ST-LLM+的对比

传统统计方法

ARIMA [47]、VAR [48]、Kalman Filter [49]

线性模型,无法捕捉非线性和复杂时空依赖

ST-LLM+用LLM+图注意力实现非线性建模

图神经网络(GNN)

DCRNN [54]、STGCN [57]、AGCRN [53]、DGCRN [65]

用图卷积捕捉空间依赖,但难以建模长程时间依赖

ST-LLM+用LLM的预训练能力弥补长程时间建模不足

注意力机制模型

ASTGCN [59]、GMAN [60]、ASTGNN [61]

动态注意力建模空间依赖,但结构复杂、泛化差

ST-LLM+用冻结+微调策略,提升泛化性

LLM-based基线

GCNGPT [28]、GATGPT [38]、LLaMA-2 [66]

直接组合LLM与GCN/GAT,但时空融合不充分

ST-LLM+用图增强注意力实现深度时空融合

论文通过对比指出,现有方法要么忽略空间结构(如LLM4TS),要么忽略预训练泛化能力(如传统GNN)。ST-LLM+通过“图增强+LLM微调”的混合架构,首次系统性融合图结构与语言模型优势,解决了时空预测中的建模、泛化与效率三大难题。

Q: 论文如何解决这个问题?

符号总结
符号总结
ST-LLM+
ST-LLM+

论文 ST-LLM+ 针对交通预测中复杂时空建模能力差、泛化性弱、计算开销大的核心问题,提出了以下三项关键技术来解决:

图片
图片

A: 论文通过以下几个关键步骤来解决多模态城市数据的统一建模和城市任务的全面理解问题:

1. 图增强时空建模:PFGA模块(Partially Frozen Graph Attention)

问题:传统LLM仅将时间序列分词为“空间令牌”,无法建模交通网络中非顺序的空间依赖(如相邻路口的拥堵传播)。 解决方案

  • 引入图结构:将交通网络建模为图 ,其中邻接矩阵 表示空间邻近性。
  • 图注意力机制:在LLM的后U层中,用邻接矩阵作为注意力掩码,允许每个节点关注非顺序但空间邻近的节点,显式捕捉局部空间依赖。
  • 部分冻结策略:前F层冻结(保留LLM预训练的全局时序知识),后U层解冻并引入图注意力,平衡全局泛化性局部精确性
数据来源
  • 结构化地理空间数据来自OpenStreetMap。
  • 轨迹数据:包括Foursquare签到数据和OpenStreetMap轨迹。
  • 卫星图像来自Google Earth。
  • 街景图像来自Google Map和Baidu Map。
数据构建
  • 局部视角数据:包括结构化地理空间数据和单个街景图像,通过设计问题模板将地理空间数据转换为自然语言问题和答案。
  • 轨迹视角数据:包括文本轨迹数据和视觉增强轨迹数据,通过随机采样和真实世界轨迹数据生成。
  • 全局视角数据:包括单个卫星图像和多个卫星图像,通过生成描述和比较任务来增强跨模态对齐。

2. 高效微调:LoRA(Low-Rank Adaptation)

问题:全参数微调LLM(如GPT-2)参数量巨大,训练成本高且易过拟合。 解决方案

  • 低秩矩阵分解:仅对注意力层的查询(Query)和值(Value)矩阵引入低秩可训练参数(如),将可训练参数量从**百万级降至3.76%**(CHBike数据集)。
  • 计算效率提升:在CHBike数据集上,推理速度(FPS)从528提升至654,内存占用降低。
图片
图片

Q: 论文做了哪些实验?

A: 论文通过系统化的实验设计,从主实验、消融研究、参数分析、效率对比、零/少样本迁移五个维度全面验证了ST-LLM+的有效性。具体实验如下:

主实验:与现有模型对比

  • 做了什么:在 NYCTaxi 和 CHBike 两个真实交通数据集上,与 GNN、Attention-based、LLM-based 三大类共十余个基线模型对比预测性能。
  • 结论:ST-LLM+在所有评价指标(MAE、RMSE、WAPE)上均取得最佳成绩,验证其有效性。

主实验
主实验

主实验

消融实验:验证核心组件必要性

  • 做了什么:分别移除时空嵌入层、融合卷积层、LLM 主干,以及对比 PFGA 与全参数微调、全图注意力、无图注意力的变体。
  • 结论:每个组件都对最终性能有显著贡献;PFGA 策略(部分冻结+选择性图注意力)优于其他变体。

消融实验1
消融实验1

消融实验1

消融实验2
消融实验2

消融实验2

参数敏感性分析:解冻层数 U 的选择

  • 做了什么:调整最后 U 层图注意力层的解冻数量,观察对预测误差的影响。
  • 结论:U 的最佳取值与数据集规模相关,小数据集宜取较小 U 以避免过拟合。

超参数分析
超参数分析

超参数分析

效率与资源对比

  • 做了什么:比较推理速度(FPS)、显存占用、可训练参数比例。
  • 结论:LoRA 与 PFGA 结合显著降低可训练参数量,提升推理速度并减少显存占用。

效率对比
效率对比

效率对比

零样本迁移实验

  • 做了什么:仅用 NYCTaxi 数据训练,直接在 CHBike 数据上测试。
  • 结论:ST-LLM+在未见过的数据集上仍优于其他模型,展示出色的跨域泛化能力。

零样本
零样本

零样本

少样本学习实验

  • 做了什么:仅使用 10% 训练数据进行微调。
  • 结论:ST-LLM+在数据稀缺场景下依然保持高精度,验证其稳健性。

少样本
少样本

少样本

注意力可视化案例研究

  • 做了什么:可视化 ST-LLM 与 ST-LLM+ 的注意力权重,并与邻接矩阵对比。
  • 结论:ST-LLM+ 的注意力分布与真实空间邻接关系高度一致,证明其能有效捕捉局部空间依赖。

注意力可视化
注意力可视化
ST-LLM和ST-LLM+的训练参数比较
ST-LLM和ST-LLM+的训练参数比较
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • Q: 这篇论文试图解决什么问题?
    • 核心问题与动机
    • ST-LLM+的解决方案
  • Q: 有哪些相关研究?
    • Large Language Models(LLMs)在时空数据上的应用
    • 交通预测领域的传统/深度学习方法
  • Q: 论文如何解决这个问题?
    • 1. 图增强时空建模:PFGA模块(Partially Frozen Graph Attention)
      • 数据来源
      • 数据构建
    • 2. 高效微调:LoRA(Low-Rank Adaptation)
  • Q: 论文做了哪些实验?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档