原文为英文写作,英文标题——Kill that Mocking Bot:The Siren Song of AI, and the Grounded Wisdom of Classical Traffic Modelling
中文标题(作者翻译)——杀死那只学舌鸡¹:在AI大模型的迷思中回望传统交通建模
作者/译者:辛武平
英文原文:https://wupingxin.substack.com/p/kill-that-mocking-bot
作者简介:
辛武平博士,美国Caliper公司首席技术官(CTO),长期从事交通建模与仿真、交通信号控制以及智能交通系统(ITS)相关技术研究与开发。他是美国交通研究委员会(TRB)交通信号系统委员会下属信号配时分委员会(Signal Timing Subcommittee)联合主席。
也是多个重要标准化组织的投票成员 (Voting Member),包括:
●国际标准化组织智能运输系统技术委员会(ISO/TC204)
●C++ 语言标准委员会(ISO JTC1/SC22/WG21)
●国家智慧交通通信协议(NTCIP)标准1202(交通信号控制器)和1211(公交优先)工作组
Caliper公司致力于为城市规划、交通工程和公共政策提供高效的决策支持工具。代表性产品为TransCAD和TransModeler。
PART1
人工智能的塞壬之歌
在荷马史诗中,海妖塞壬(Siren)用美妙的歌声诱惑水手驶向险礁。她们的歌声婉转悠扬,赞美智慧,低语洞见, 引人沉醉。痴迷倾听的人,往往在不觉中触礁。
如今,人工智能——尤其是深度学习模型所带来的吸引力, 与这古老的传说不无相似之处。它被寄予厚望²,解决各类复杂问题,重塑多个行业的基本图景。
在交通建模领域,我们也不时听到类似的声音:“让数据自己说话”,“端到端学习终将淘汰经典交通模型”。这些愿景令人振奋和期待。
我们也许需要稍作停顿:这些愿景是否过于美好?我们是否在不经意间,已经踏上了一条需要更为冷静、理性对待的探索之路?
PART2
虚幻的“庞大”
现代AI(尤其是深度神经网络DNN)构建的数据模型常被描述为"庞大"且"深邃"。但这究竟是什么意思?
神经网络的数据流
Source:Towards AI
权重和偏置的调配
Source: Towards AI
深度:层层叠加
“深度”指的是层数——几十、几百,甚至上千层——这些层次逐渐堆叠,通过对输入数据的处理,提取越来越抽象和复杂的特征。
参数:权重与偏置的海洋
每个神经元连接都携带着从大数据中学习得到的权重(有时包含偏置项)。这些参数是统计性质的——它们不代表任何物理属性,可以灵活调整,以最小化训练误差。
宽度:高维特征空间
现代DNN在成千上万维的特征空间中运行,这些维度与物理现象没有直接关联。虽然这让模型能够捕捉复杂的非线性关系,却也让其工作原理,即便对于领域专家,也难以解释。
深度学习模型的"庞大"体现在参数规模和计算结构的复杂性上。但这种"庞大"与经典交通模型的复杂性存在本质区别——接下来,我们将会探讨这一点。
PART3
"庞大"与"深度"的陷阱
尽管规模惊人,深度学习的数据模型并不建立在物理定律之上。神经网络中的权重并不对应交通流量、信号配时或驾驶行为, 而更多是从大量数据中学习提取得出的统计关联,往往难以解释、审计,也难以用于清晰的因果推理。
正因如此,将这类模型称为“庞大”可能带来某种误导——容易让人将规模视作有效性的象征。在工程实践中,尤其在交通建模领域,缺乏可验证物理基础的"庞大"的数据模型,有时未必是优势, 反而可能带来额外的挑战。
PART4
面向可解释性,回归结构
如果说深度学习中以数据驱动为核心的“庞大”模型,在强调可解释性和因果推理的场景中显得根基薄弱,那么我们是否可以探索另一种更稳健、更融合知识与数据的建模路径?
一个受到关注的思路,是物理知识驱动的人工智能(Physics-informed AI)。它尝试将物理定律与领域知识有机融入AI模型的架构之中,使模型不仅依赖数据中的模式,也能够在学习过程中主动遵循我们已有的科学认知。
以物理知识驱动神经网络(PINNs)为例,模型不仅从数据中提取关联,还通过优化过程确保其输出符合物理方程(例如质量、能量或动量守恒)。在交通建模领域,这种方法或许可以引入连续性方程、跟驰行为模型,甚至是复杂的网络拓扑和流量约束,从而提升模型整体的可信度与可解释性。
在这一思路下,我们不再单纯追问“模型有多少层”,而是更关心“现实世界赋予了我们哪些结构、哪些知识,可以融入模型之中”。这种面向可解释性的结构化的建模方式,或许才是值得持续探索的方向。
PART5
计算图视角:结构的力量,融合的载体
深度神经网络本质上是一个计算图(computational graph)——一个有向无环图(DAG),其中节点(node)代表各种数学运算(如加法、矩阵乘法、非线性激活等)的算子,边(edge)则表示张量(tensor)在运算之间的流动与传递。这种图结构不仅定义了数据如何在模型中传播,还决定了如何通过反向传播机制计算梯度,以及如何在训练过程中更新模型参数。
计算图是一种可数值微分的函数映射架构,它将复杂的目标函数拆解为一系列可组合、可微的算子。从这个视角来看,TensorFlow(意为“张量流”)这一命名恰如其分:它本质上是一个以C++为核心的计算图库,所有数据以张量的形式,在图中沿着基于网络拓扑的计算路径流动,依次完成前向预测与反向梯度传播。
与基于物理的经典模型不同,深度神经网络中的大多数运算节点并不具有明确的物理含义。它们是为优化而构建的数学结构,旨在通过复合函数的方式逼近输入与输出之间的映射关系,以最小化定义好的损失函数。
但计算图的意义远不止于此。它提供了一种结构化的表达方式,将复杂的非线性函数近似任务,拆解为一系列层次明确的函数映射组合。这种分层的建模方式,某种意义上类似于泛函空间中的构造性映射:通过一层层非线性与线性变换组合,从低阶表示逐步构建更抽象的特征空间。
如果从数学结构的角度来看,计算图中的层级组合也可以类比于李群(Lie Groups)在几何空间中通过局部变换生成全局结构:每一层的变换看似微小且无物理意义,但层层叠加后,模型整体展现出强大的表达能力。这种以结构主导建模过程的方式,为我们提供了可重复、可控制、可扩展的深度学习框架。
从工程实践角度看,计算图的益处包括:
并行计算友好性:图结构天然适合在GPU / TPU 等硬件中实现高效的并行计算;
自动数值微分能力:通过记录前向传播的操作序列,框架可以自动推导反向传播的梯度;
可视化与结构表达的便利性:计算图天然具备清晰的结构表示能力,使得性能瓶颈定位、异常变异追踪更具直观性和系统性。更重要的是,当我们将物理模型中的结构(如方程约束、边界条件、守恒关系)用计算图的形式显式表达出来,这种图结构就不再只是数据驱动模型的调试工具,而是成为物理知识与深度学习融合的载体。
通过将物理约束嵌入计算图中,AI模型能够在训练过程中“感知”并“遵守”领域知识,从而大幅提升模型的稳健性与可解释性。换句话说,计算图不仅帮助我们构建模型,也帮助我们将现实世界的规律编码进模型的结构之中,真正实现“结构感知”的建模方式。这种方法为数据与理论的融合提供了统一的表达框架,也许是推动下一代AI 系统从“黑箱”走向“灰箱”甚至“白箱”的重要路径
总之,计算图不仅是实现机制的基础结构,更是理解深度学习运行逻辑的重要认知工具。它为我们打开了一扇通向“从黑箱到结构”的门,使模型的透明性、可解释性、以及与领域知识的结合成为可能,也为未来的模型演化与工程创新提供了坚实的数学和计算基础。
PART6
经典交通模型的持久价值
经典交通模型远不止是一套公式或算法,它们是工程智慧与科学原理交汇的产物。这些模型基于第一性原理,吸收了物理学、运筹学、行为科学等学科的思想,并在数十年的实践中被验证和打磨。它们代表着一种可解释、透明、结构化的建模传统,在数值稳定性、行为合理性和系统可控性方面具有优势。
一些具有代表性的经典交通建模方法包括:
出行需求模型:通过层层分解与联立迭代,系统刻画土地利用、人口分布、出行生成、方式选择与路径分配之间的长期互动。
微观、中观与宏观仿真模型:以多粒度方式描述个体车辆行为、交通流特征与网络级绩效,为交通系统管理与优化提供从“米级”到“公里级”的决策支持。
连续流模型:基于守恒定律与偏微分方程,捕捉交通密度波动与拥堵传播机制,提供流动性的物理刻画。
网络均衡模型:通过优化框架(如Frank-Wolfe算法)求解用户均衡与系统最优,实现对拥堵反馈与出行者行为的联合建模。
这些模型的共同特征在于:结构具有物理与行为含义、变量具备明确定义、参数源于实证与实验数据支撑。例如,车头时距、饱和流率、时间价值、出行时间弹性等,都是具有现实含义的量化指标。其建模思路是“从规律出发”,而非“从数据出发”。结构不是深度网络式的“由层堆叠得来”,而是力求对现实系统进行映射和抽象。
PART7
真正的复杂性来自于现实世界
值得强调的是,经典交通模型的复杂性不是人为设计的产物,而是对现实系统复杂性的呈现。传统模型的复杂性不是被“设计”出来的,而是继承自现实世界本身。
相比之下,深度神经网络的复杂性往往由架构设计驱动:更多的层次、更大的参数量、更复杂的激活函数。这种“复杂性”的提升虽然能增强模型的表达能力,但缺乏对物理机制与因果结构的映射。每多加一层或一组神经元,或许能提升数据拟合能力,但这并不意味着模型更接近现实。其内部逻辑是统计性的,而非物理性的——维度虽高,表现力虽强,却往往脱离了交通流、信号控制或出行者行为中的因果关系。
相反,传统模型的复杂性源于其试图忠实刻画以下交通系统中的核心结构特征:
高度互联的网络拓扑,具备明显的层级性、方向性与瓶颈结构;
出行者行为的异质性与动态适应性,包括对旅行时间、成本、可靠性、信息等的敏感性;
系统内部的不确定性,如需求扰动、随机事件、交通信号的周期性变化;
政策、价格、控制策略与使用者行为之间的反馈机制,构成了一个多层嵌套的动态系统。
传统模型的复杂性由问题所在的领域决定,而不是随神经网络架构规模扩展。它们的复杂性映射了所模拟系统的结构。经典模型因为世界复杂而变得复杂,深度神经网络因为我们设计它们而变得复杂。
PART7
让经典与数据融合的前进之路
传统交通模型是工程工具,而深度神经网络则是数据驱动的逼近器。尽管深度学习技术在大数据和模式识别方面展现了卓越的性能,传统交通模型依然在许多领域中具有不可替代的优势,特别是在物理一致性与决策透明性方面。传统模型的结构清晰,计算层次明确,不依赖于层叠的非线性变换,具有强大的可解释性。它们能够准确回答“如果增加车道,拥堵会如何变化”这类因果推理问题,这使它们在因果推理与政策分析中依然占据着核心地位,尤其是在评估拥堵收费、交通信号控制等决策时,传统模型仍是黄金标准。
然而,随着计算能力的提升和数据的积累,深度学习在处理复杂系统和大规模数据时表现出强大的潜力。因此,交通建模的未来正朝着融合传统方法与深度学习的计算框架的方向发展。这种融合不仅仅限于深度模型本身,更在于深度学习所提供的工具——计算图、自动微分、并行计算以及GPU加速。通过这种融合,我们能够在保持物理模型优势的同时,借助深度学习的表达能力和灵活性,突破传统模型的一些局限。
深度学习框架+传统模型
PART8
深度学习框架+ 传统模型的融合愿景
想象一下,未来的交通建模可以做到以下几点:
在可微架构中嵌入微观、中观与宏观交通模型:通过将传统的交通流模型融入深度学习框架,形成一种多尺度的建模方法,既能够精确捕捉到车辆层面的微观行为,又能对网络性能进行宏观描述。
利用交通流理论中的先验知识提升可解释性与稳健性:深度学习模型的核心优势在于其对复杂模式的高效拟合能力,但纯粹依赖数据驱动的方法往往缺乏可解释性与结构稳定性,容易过拟合或在非典型情境下失效。通过引入交通流理论中的经典先验知识,我们不仅可以提升模型结构的一致性,还能将物理约束显式地融入训练过程,从而提升模型的稳健性与泛化能力。 进一步地,这种融合可以拓展至更高层次的结构性知识,例如:
●路径选择行为中的用户均衡与系统最优原则,可转化为神经网络训练中的目标函数约束或行为模拟模块;
●出行生成与土地使用的交互机制,可作为上下文嵌入或结构化特征输入,提高模型的语义完整性;
●信号控制策略与交通反应间的因果关系,可通过强化学习或图神经网络架构引导模型学习决策-响应链条。
在训练过程中引入领域约束,以缓解梯度爆炸或消失问题:深度学习模型往往面临梯度爆炸或消失的问题,尤其在复杂系统的训练过程中。通过在训练时引入交通系统的领域约束,我们能够有效控制梯度的传播,避免模型在优化过程中出现不稳定现象。
针对交通系统设计专属注意力机制:传统的深度学习模型通常采用通用的注意力机制,但对于交通建模来说,我们可以设计更为针对性的注意力机制。例如,针对交通流中的激波形成、信号变化等关键时刻,设计能够捕捉事件的注意力机制,避免传统方法中常见的优化陷阱,如平坦区域、尖锐极小值或鞍点,提升模型的学习效率和稳定性。
此外,这种融合还包括:
设计尊重交通流约束的损失函数:传统交通模型中常见的约束可以通过精心设计的损失函数来保证,确保优化过程始终遵循物理规律,从而提升模型的真实性和准确性。
设计能在时间稀疏但语义密集的事件中保持梯度流动的激活函数:例如,在处理交通信号变化或交通激波等事件时,模型可能面临时间上的稀疏性,但这些事件对于系统的影响却至关重要。通过设计专门的激活函数,能够确保模型在这些稀疏时间点上依然能够有效传播梯度,避免信息丢失。
深度学习框架+传统模型的融合,这种集成将平滑优化路径,缓解训练不稳定性,并提升泛化能力——而这些往往是通用架构在结构化领域中难以做到的。这是一种混合范式,它保留了物理模型的因果性,又吸收了深度学习框架的数据表达力。
PART9
交通领域大模型:重构而重生
一个真正有价值、有影响力的“交通领域大模型”,或许不必拘泥于通用语言模型(如GPT)的路径,而应立足于交通系统自身的特点,融合工程理性与数据驱动大模型,构建面向实际问题、支持科学决策的混合建模架构。它的核心特征可以包括
融合基于物理的交通理论与神经计算
交通系统是由物理规律主导的人-车-路互动系统,不能仅依靠数据拟合来理解与预测其行为。真正有效的交通大模型应在底层嵌入经典交通理论,作为神经计算的结构约束或训练目标。 通过在模型结构中保留物理关系、引入专家知识,我们可以构建“可微交通模型”,使得训练过程既能利用大数据,又不失工程合理性。
保持可解释性与政策相关性
交通模型的最终目标是服务决策与管理,而非仅提高预测精度。无论是拥堵定价、信号配时,还是公共交通布局与土地利用规划,政策分析都依赖因果推理与变量控制能力。一个合格的交通大模型必须具备结构透明性、参数可解释性、输入输出因果可追溯性,能够回答“如果”类问题,例如:“如果在高峰时段加开一条公交专用道,延误会减少多少?”这远非传统黑箱神经网络可以胜任。
借助AI完成感知与模式识别任务——如视频分析与轨迹预测
在数据层面,AI特别擅长从高维、非结构化数据中提取结构化信息。交通大模型应善用深度学习在感知领域的能力,比如:
●从摄像头视频中识别车辆类型与轨迹,辅助OD推断
●从移动信令或APP轨迹中识别出行模式
●从历史图像、事件序列中预测拥堵发展趋势
这些信息可以作为输入嵌入经典建模流程中,为传统模型提供更加丰富和实时的数据支持。
用工程智慧指导模型结构、优化策略与鲁棒性设计
面对现实交通系统的复杂性与不确定性,仅靠“堆参数、调超参”远远不够。交通领域的工程经验能够指导模型的架构设计、损失函数构造、训练策略选择、异常处理机制等关键环节。 例如,借助信号周期、拥堵传播速度等知识约束模型输出范围;用路径选择稳定性启发注意力机制;通过物理不变量稳定训练过程。这种结构性约束与数据驱动之间的有机协同,是构建可泛化、可部署大模型的关键。
PART 1
还需要“杀死”那只学舌鸡吗?
也许我们不必“杀掉”那只学舌鸡——毕竟,它记忆力惊人、学习能力堪比天才。真正关键的是:我们要教它唱出更深刻、更有结构、更贴近现实的旋律。
深度神经网络为交通建模带来了强大的工具箱——从自动微分、GPU并行,到非线性模式识别,它是我们迈向复杂系统建模的新引擎。但它的真正潜力,并不在于取代传统模型,而在于与那些源自第一性原理、蕴含因果结构与物理现实的工程模型共鸣。它们是搭档,而非对手。
想象一下:用经典模型为深度学习提供结构骨架与因果引导,用深度网络的灵活性去适配复杂数据与不确定性动态——这将不再是“黑箱”,而是“光箱”:结构透明、行为可解释、响应真实。
我们的目标不是制造更大的模型,而是构建更聪明、更懂现实的系统。让“工程理性”与“数据智能”牵手同行,我们可以塑造一种全新的——让工程理性与数据智能深度融合,推动更精准、高效、且具适应性的未来交通模型范式。
¹ “杀死那只学舌鸡”是对哈珀·李小说《杀死一只知更鸟》(To Kill a Mockingbird)的致敬性改写。英文标题Kill the Mocking Bot 中,“Mocking Bot” 与 “Mockingbird”发音相近,既指“会模仿的机器人”,也暗含对人工智能(尤其是大语言模型)模仿人类语言与思维的调侃。原著小说是美国中学教育中的经典读本,以儿童视角探讨正义、偏见与成长。
²万能逼近定理 (Universal Approximation Theorem)指出:一个前馈神经网络(通常是带有一个隐藏层的网络),只要有足够的神经元,就能逼近任意连续函数,在一个紧致集(compact set)上达到任意精度。如果满足:无限数量的参数(或神经元),无限的训练数据,无限的计算能力(训练所需),一个包含整个宇宙状态的可微连续函数存在,那么,从理论上讲,一个足够大的深度神经网络可以逼近表示“宇宙演化规律”的那个函数。这是一种理想化的极限观点。
*原创推荐