论文标题:ST-LLM+: Graph Enhanced Spatio-Temporal Large Language Models for Traffic Prediction
作者: Chenxi Liu(刘晨曦) , Kethmi Hirushini Hettige , Qianxiong Xu , Cheng Long(龙程),Shili Xiang , Gao Cong(丛高), Ziyue Li(黎子玥), Rui Zhao(赵瑞)
机构:南洋理工大学(NTU),新加坡科技研究局(A*STAR),慕尼黑工业大学(TUM),科隆大学(Cologne),商汤科技(SenseTime)
论文链接:https://ieeexplore.ieee.org/abstract/document/11005661/
Code:https://github.com/kethmih/ST-LLM-Plus
TL;DR:本文针对交通预测中时空建模不足、跨域泛化弱、计算开销大的挑战,提出了基于图增强与LoRA微调的ST-LLM+模型,分别建模了全局时序知识与局部图邻接依赖,实现了高效准确的零/少样本跨域预测。
ST-LLM+ 在 ST-LLM 的“冻结-微调”思想上,进一步引入 图结构掩码 + LoRA,实现了显式空间建模、参数高效、跨域稳健三大升级。
点击图片跳转前作ST-LLM(MDM2024)的论文解读 |
---|
关键词:交通预测,大语言模型,时空数据,时空图
点击文末阅读原文跳转本文IEEE链接
交通预测是数据管理系统的关键组成部分,它利用历史数据学习时空动态特性以预测未来交通状况,从而实现高效决策和资源分配。尽管学界不断开发日益复杂的架构,现有交通预测模型仍难以在不同数据集和场景中实现泛化,限制了其在实际应用中的适应性。与传统交通预测模型不同,大语言模型(LLMs)主要通过参数扩展和大规模预训练实现进步,同时保持其基础结构不变。
本文提出ST-LLM+模型——面向交通预测的图增强时空大语言模型。该模型通过将交通网络衍生的基于邻近度的邻接矩阵整合至校准后的大语言模型,有效捕捉交通网络内复杂的时空依赖关系。其中设计的部分冻结图注意力(PFGA)模块,既能保留大语言模型预训练期间习得的全局依赖关系,又能建模交通领域特有的局部化依赖特征。为降低计算开销,ST-LLM+采用LoRA增强训练策略,使注意力层可通过更少的可训练参数进行微调。
在真实交通数据集上的综合实验表明,ST-LLM+性能优于当前最先进模型。值得注意的是,该模型在少样本和零样本预测场景下均展现出强劲性能。案例研究进一步证实,ST-LLM+能有效捕捉站点间的全局与局部依赖关系,验证了其在交通预测任务中的有效性。
A:这篇论文(ST-LLM+)试图解决交通预测任务中现有模型难以同时有效捕捉复杂时空依赖关系、泛化能力差、以及计算开销大的问题。具体而言,它针对以下三个关键挑战:
通过三项关键设计,针对性解决上述问题:
A: 这篇论文(ST-LLM+)在“Related Work”部分系统梳理了两大类相关研究:
类别 | 代表工作 | 特点 | 与ST-LLM+的关系 |
---|---|---|---|
时间序列LLM | OFA [30]、TEMPO-GPT [26]、LLM4TS [39] | 基于GPT-2微调,专注时序建模,忽略空间依赖 | ST-LLM+引入图结构,弥补空间建模不足 |
多模态/提示学习 | PromptCast [32]、Time-LLM [27]、UniTime [31] | 将时间序列转为文本提示,或对齐文本与时序空间 | 但未处理图结构中的非局部空间依赖 |
时空LLM早期探索 | ST-LLM [28]、UrbanGPT [29]、UniST [44] | 首次将LLM用于时空预测,但仍未显式建模图结构信息 | ST-LLM+在此基础上引入图注意力与部分冻结策略 |
类别 | 代表工作 | 特点 | 与ST-LLM+的对比 |
---|---|---|---|
传统统计方法 | ARIMA [47]、VAR [48]、Kalman Filter [49] | 线性模型,无法捕捉非线性和复杂时空依赖 | ST-LLM+用LLM+图注意力实现非线性建模 |
图神经网络(GNN) | DCRNN [54]、STGCN [57]、AGCRN [53]、DGCRN [65] | 用图卷积捕捉空间依赖,但难以建模长程时间依赖 | ST-LLM+用LLM的预训练能力弥补长程时间建模不足 |
注意力机制模型 | ASTGCN [59]、GMAN [60]、ASTGNN [61] | 动态注意力建模空间依赖,但结构复杂、泛化差 | ST-LLM+用冻结+微调策略,提升泛化性 |
LLM-based基线 | GCNGPT [28]、GATGPT [38]、LLaMA-2 [66] | 直接组合LLM与GCN/GAT,但时空融合不充分 | ST-LLM+用图增强注意力实现深度时空融合 |
论文通过对比指出,现有方法要么忽略空间结构(如LLM4TS),要么忽略预训练泛化能力(如传统GNN)。ST-LLM+通过“图增强+LLM微调”的混合架构,首次系统性融合图结构与语言模型优势,解决了时空预测中的建模、泛化与效率三大难题。
论文 ST-LLM+ 针对交通预测中复杂时空建模能力差、泛化性弱、计算开销大的核心问题,提出了以下三项关键技术来解决:
A: 论文通过以下几个关键步骤来解决多模态城市数据的统一建模和城市任务的全面理解问题:
问题:传统LLM仅将时间序列分词为“空间令牌”,无法建模交通网络中非顺序的空间依赖(如相邻路口的拥堵传播)。 解决方案:
问题:全参数微调LLM(如GPT-2)参数量巨大,训练成本高且易过拟合。 解决方案:
A: 论文通过系统化的实验设计,从主实验、消融研究、参数分析、效率对比、零/少样本迁移五个维度全面验证了ST-LLM+的有效性。具体实验如下:
主实验:与现有模型对比
主实验
消融实验:验证核心组件必要性
消融实验1
消融实验2
参数敏感性分析:解冻层数 U 的选择
超参数分析
效率与资源对比
效率对比
零样本迁移实验
零样本
少样本学习实验
少样本
注意力可视化案例研究