Attention Based Spatial-Temporal Graph Convolutional Networks
for Traffic Flow Forecasting
摘要:交通流预测是交通领域研究和实践的一个重要课题。然而,由于交通流通常表现出高度非线性和复杂的模式,这是非常具有挑战性的。现有的交通流预测方法大多缺乏对交通数据动态时空相关性的建模能力,无法得到令人满意的预测结果。本文提出了一种新的基于注意力的时空图卷积网络(ASTGCN)模型来解决交通流预测问题。ASTGCN主要由三个独立的分量组成,分别模拟交通流的三种时间属性,即近期、日周期和周周期依赖关系。具体来说,每个组件包含两个主要部分:1)有效捕捉交通数据中动态时空相关性的时空注意机制;2)时空卷积,它同时使用图卷积来捕获空间模式和通用标准卷积来描述时间特征。对三个分量的输出进行加权融合,生成最终的预测结果。在来自Caltrans性能测量系统(PeMS)的两个真实数据集上的实验表明,所提出的ASTGCN模型优于最先进的基线。
介绍:
我们提出了一种新的深度学习模型:基于注意力的时空图卷积网络(ASTGCN),以集体预测交通网络上每个位置的交通流量。该模型可以直接在原始的基于图的交通网络上处理交通数据,有效地捕捉交通数据的动态时空特征。本文的主要贡献总结如下:
•我们开发了一个时空注意机制来学习交通数据的动态时空相关性。具体来说,利用空间注意来模拟不同位置之间复杂的空间相关性。时间注意用于捕获不同时间之间的动态时间相关性。
•设计了一种新的时空卷积模块,用于对交通数据的时空依赖性进行建模。它包括从原始的基于图的交通网络结构中捕获空间特征的图卷积和从附近的时间片描述依赖关系的时间维度的卷积。
•在真实的公路交通数据集上进行了广泛的实验,验证了与现有基线相比,我们的模型实现了最佳的预测性能。
定义:
交通网络:在本研究中,我们将交通网络定义为无向图G = (V, E, a),如图2(a)所示,其中V是一个有限节点集|V | = N;E是边的集合,表示节点之间的连通性;A∈R N×N表示图G的邻接矩阵。交通网络G上的每个节点以相同的采样频率检测F个测量值,即每个节点在每个时间片上生成一个长度为F的特征向量,如图2(b)中的实线所示。
图2:(a)交通数据的时空结构,其中每个时间片的数据形成一个图;(b)在一个节点上检测三个测量值,并将未来交通流量作为预测目标。这里,所有的测量值都归一化为[0,1]。
交通流量预测:设交通网络G中各节点记录的第f个时间序列为交通流序列,f∈(1,…, F)。我们用表示节点 i 在时刻 t 的第 c 个特征值,表示节点 i 在时刻 t 的所有特征值。表示所有节点在时刻 t 的所有特征值。表示所有节点在个时间片上的所有特征值。另外,设表示节点i在未来t时刻的交通流量。
问题:给定,交通网络上所有节点在过去时间片上的各种历史测量值,预测未来交通流序列,
其中表示节点 i 从开始的未来交通流。
基于注意的时空图卷积网络:
图3给出了本文提出的ASTGCN模型的总体框架。它由三个具有相同结构的独立组件组成,分别用于对历史数据的近期、日周期和周周期依赖关系进行建模。
图3:ASTGCN的框架。SAtt:空间注意力;TAtt:时间注意力;GCN:图卷积;Conv:卷积;FC:全连接;ST block:时空块。
图4:构建时间序列片段输入的示例(假设预测窗口的大小为1小时,Th、Td和Tw是Tp的两倍)。
假设采样频率为每天q次。假设当前时间为T0,预测窗口大小为Tp。如图4所示,我们沿时间轴截取长度为Th、Td和Tw的三个时间序列片段,分别作为近期分量、日周期分量和周周期分量的输入,其中Th、Td和Tw均为Tp的整数倍。三个时间序列片段的详细情况如下:
(1)最近的片段:
是与预测周期直接相邻的一段历史时间序列,如图4中绿色部分所示。直观地看,交通拥堵的形成和分散是渐进的。因此,刚刚过去的交通流量不可避免地会对未来的交通流量产生影响。
(2)日周期段:
由与预测周期同一时间段的过去几天的段组成,如图4中红色部分所示。由于人们的日常生活规律,交通数据可能会出现重复的模式,比如每天的早高峰。日周期组件的目的是对交通数据的日周期性进行建模。
(3)周周期段:
由最近几周的分段组成,这些分段与预测周期具有相同的周属性和时间间隔,如图4中蓝色部分所示。通常星期一的交通模式与历史上星期一的交通模式有一定的相似性,但可能与周末的交通模式有很大的不同。因此,周周期分量的设计是为了捕捉交通数据中的周周期特征。(Tw代表每周的同一天,间隔为7天)
这三个组件具有相同的网络结构,每个组件由多个时空块和一个全连接层组成。在每个时空块中都有一个时空注意模块和一个时空卷积模块。为了优化训练效率,我们在每个组件中采用了残差学习框架。最后,根据参数矩阵将三个分量的输出进一步合并,得到最终的预测结果。整个网络结构经过精心设计,以描述交通流的动态时空相关性。
时空注意力:
在我们的模型中提出了一种新的时空注意机制,以捕捉交通网络上的动态时空相关性。它包含两种注意,即空间注意和时间注意。
空间注意力:在空间维度上,不同地点的交通状况相互影响,且相互影响是高度动态的。在这里,我们使用注意机制自适应捕获空间维度中节点之间的动态相关性。以最近分量中的空间注意力为例:
式中为第 r 个时空块的输入。Cr−1为第r层输入数据的通道数。当r = 1时,C0 = F。Tr−1为第 r 层时间维的长度。当r = 1时,最近分量中T0 = Th(日周期分量中T0 = Td,周周期分量中T0 = Tw)。为可学习参数,sigmoid σ作为激活函数。根据该层的当前输入动态计算注意力矩阵S。S中元素的值在语义上表示节点 i 和节点 j 之间的关联强度,然后使用softmax函数保证节点和的注意权值为1。在进行图卷积时,我们将邻接矩阵A与空间关注矩阵相结合,动态调整节点间的影响权值。
时间注意力:在时间维度上,不同时间片的交通状况之间存在相关性,不同情况下的相关性也有所不同。同样,我们使用注意机制来自适应地赋予数据不同的重要性:
其中,为可学习参数。时间相关矩阵E由不同的输入决定。E中元素的值在语义上表示时间 i 和 j 之间的依赖强度。最后,E通过softmax函数进行归一化。我们直接将归一化的时间注意矩阵应用于输入,得到,通过合并相关信息动态调整输入。
时空卷积:
时空关注模块让网络自动对有价值的信息给予相对更多的关注。注意机制调整后的输入被送入时空卷积模块,其结构如图5所示。本文提出的时空卷积模块由空间维度上的图卷积和时间维度上的卷积组成,前者从邻域获取空间依赖关系,后者从邻近时间获取时间依赖关系。
图5:ASTGCN的时空卷积架构
空间维度的图卷积:在谱图分析中,一个图用它对应的拉普拉斯矩阵表示。通过分析拉普拉斯矩阵及其特征值,可以得到图结构的性质。图的拉普拉斯矩阵定义为L = D−A,其归一化形式为 ,其中A为邻接矩阵,为单位矩阵,度矩阵为对角矩阵,由节点度组成,。拉普拉斯矩阵的特征值分解为,其中为对角矩阵,U为傅里叶基。以时刻t的交通流为例,整个图上的信号为,该信号的图傅里叶变换定义为 ,根据拉普拉斯矩阵的性质,U是一个正交矩阵,因此对应的傅里叶反变换为 。图卷积是一种卷积操作,通过使用在傅里叶域中对角化的线性算子来取代经典卷积算子。在此基础上,对图G上的信号x进行核函数gθ滤波:
其中* G表示图卷积运算。由于图信号的卷积运算等于通过图傅里叶变换变换到谱域的这些信号的乘积,因此上式可以理解为分别将gθ和x进行傅里叶变换到谱域,然后将它们的变换结果相乘,进行傅里叶反变换,得到卷积运算的最终结果。然而,当图的规模较大时,直接对拉普拉斯矩阵进行特征值分解是非常昂贵的。因此,本文采用Chebyshev多项式近似而有效地解决了这一问题:其中参数是多项式系数的向量。, λmax为拉普拉斯矩阵的最大特征值。切比雪夫多项式的递归定义是其中T0(x) = 1, T1(x) = x。使用Chebyshev多项式的近似展开来求解该公式对应于通过卷积核gθ提取以图中每个节点为中心的周围0到(K−1)阶邻居的信息。图卷积模块使用整流线性单元(ReLU)作为最终激活函数,即
为了动态调整节点之间的相关性,对于Chebyshev多项式的每一项,我们将与空间注意矩阵相结合,得到,其中⊙为Hadamard积。因此,上述图卷积公式变为
我们可以把这个定义推广到多通道的图信号。例如,在最近的组件中,输入为,其中每个节点的特征都有个通道。对于每个时间片t,在图上执行Cr滤波,我们得到,其中为卷积核参数。因此,每个节点都是由节点的0 ~ K-1个邻居的信息更新的。
时间维度卷积:图卷积操作在空间维度捕获图上每个节点的相邻信息后,进一步堆叠时间维度的标准卷积层,通过合并相邻时间片上的信息来更新节点的信号,如图5右侧所示。同样以最近组件中第r层的操作为例:
其中*表示标准卷积操作,为时间维卷积核的参数,激活函数为ReLU。综上所述,时空卷积模块能够很好地捕捉交通数据的时空特征。一个时空注意模块和一个时空卷积模块构成一个时空块。将多个时空块进行叠加,进一步提取更大范围的动态时空相关性。最后,增加一个全连接层,以确保每个组件的输出与预测目标具有相同的尺寸和形状。最后的完全连接层使用ReLU作为激活函数。
多组分的融合:
当融合不同组件的输出时,三个组件对每个节点的影响权重是不同的,需要从历史数据中学习。因此,融合后的最终预测结果为:
⊙是阿达玛产品。其中Wh、Wd、Ww为学习参数,反映了三个时间维度分量对预测目标的影响程度。
实验:
为了评估我们的模型的性能,我们在两个真实的公路交通数据集上进行了对比实验。我们在加利福尼亚州的两个高速公路交通数据集PeMSD4和PeMSD8上验证了我们的模型。数据集由Caltrans性能测量系统(PeMS) (Chen et al . 2001)每30秒实时收集一次。流量数据由原始数据聚合成每5分钟的间隔。该系统在加州主要大都市地区的高速公路上部署了39000多个探测器。有关传感器站的地理信息记录在数据集中。在我们的实验中有三种交通测量方法,包括总流量、平均速度和平均占用率。
我们将我们的模型与PeMSD4和PeMSD8的8种基线方法进行了比较。表1显示了未来1小时内交通流预测性能的平均结果。
表1:不同方法在PeMSD4和PeMSD8上的平均性能比较。
图6显示了各种方法的预测性能随预测区间增大的变化情况。总的来说,随着预测区间的变长,相应的预测难度也随之增大,因此预测误差也随之增大。
图6:随着预测区间的增加,不同方法的性能变化。