使用两阶段GAN模型进行基于地图图像的大规模GPS轨迹数据生成

时间:2021-09-22

随着GPS传感器以及定位社会的不断创新,有很多研究都开始注意到时间空间顺序的数据,目前轨迹预测已经被用来研究城市车流析、车辆轨迹预测分析、个性化路线推荐、自动驾驶方向等等。另一方面我们在获取大规模的轨迹数据时,由于轨迹数据本身具有很高的隐私性,高质量的轨迹数据常常非常难得到。 所以很多研究也希望通过生成高精度的人造数据进行使用。目前有很多方法与模型结构可以进行轨迹预测与轨迹生成,比如传统的马尔科夫链模型、RNN网络等等。然而在处理长距离或者大规模轨迹预测时,这些模型并不能很准确的进行预测或者生成。对于大规模轨迹生成,GAN模型也已经被用于完成粗粒度轨迹形式,但是由于失去了坐标等精确信息,这样的结果也有着较为明显的不足。在我们这篇文章中,我们提出了一种两阶段的GAN模型(Two-Stage GAN,简称TSG),希望由此来生成大规模且具有高精度、与真实数据相似的人工轨迹数据。

研究方法

我们的方法采用了由粗到细的生成方式。我们首先将整个城市划分为网格,根据每个轨迹点具有对应的隶属网格,由此得到粗粒度的轨迹矩阵表示,在这部分我们使用了传统的卷积WGAN模型,类似图片生成的方法生成轨迹网格。由于每个网格会包含若干轨迹点,在第二阶段我们对每个网格内部的序列进行生成。在这部分我们提出了一个基于地图图像的轨迹生成网络。我们使用了卷积神经网络将地图图像映射为特征向量。同时基于网格内部的轨迹进入点和驶出点,利用基于双向的LSTM的GAN网络,进行轨迹数据的精细生成。(图1展示了我们框架的三个阶段)

20210922/d23b2cc96a3c4fe04bfc35dd3fc022c9.png

图1 模型框架展示。在第一阶段,轨迹数据先被转化成了网格表示,之后用CNN网络进行处理。在第二阶段,编码器(encoder)和解码器(decoder)判别器(discriminator)

研究结果

在实验阶段,我们利用的波尔图城市轨迹数据。数据包括了波尔图的大于157万条,总共442量出租测车辆轨迹数据。每条数据中,两个轨迹点记录间隔为15秒。我们比较了FTS-IP以及LSTM网络两种基准网络与我们的轨迹生成网络进行比较。在实验中,我们主要通过比较生成轨迹数据与原始数据集中重要特征的分布差异衡量生成质量。我们依次比较轨迹点坐标的分布、轨迹地理距离长度、轨迹序列长度、所有轨迹最经常访问的前50个地区。同时,我们还对轨迹进行了可视化,由此衡量轨迹与地图真实情况的贴合程度。

表1展示了轨迹点地理位置分布、轨迹地理距离长度、轨迹序列长度三个测量指标,生成数据与真实数据的JS散度,散度越小表示分布越相似。我们记为位置被经过的概率,为轨迹序列长度为的概率,为轨迹地理距离长度为的概率。我们可以看出我们的方法(TSG)可以得到更知道你是的轨迹真实距离长度与轨迹坐标分布。

表1展示了轨迹点地理位置分布、轨迹地理距离长度、轨迹序列长度三个测量指标,生成数据与真实数据的JS散度,散度越小表示分布越相似。

20210922/4c34a7305bbcbe954c2f6dbff4e454c9.png

图2和图3分别展示了我们方法在轨迹序列长度与轨迹最经常访问的前50个地区的分布图。最经常访问的前50个地区中“地区”指的是我们将第一阶段中使用的一个轨迹网格。

20210922/a20f02a3e6fb486dd8be5aba018f62bd.png

图2 生成数据与真实数据轨迹长度分布的对比。左图为真实数据集,有图为生成数据集。可以看出生成数据保持了与真实数据相似的长度特征。

20210922/83503df9be4752307462edeffc82d6dc.png

图3 生成数据与真实数据最经常访问的前50个地区的分布对比。左图为真实数据集,有图为生成数据集。可以看出生成数据保持了与真实数据相似的语义特征。

为了表现生成轨迹与真实轨迹与路网的贴合程度,我们在图4展示了三种方法生成的轨迹序列的可视化,可以看出我们的生成方法具有更为逼真的生成效果。

图4 三种方法生成的轨迹序列的可视化,可以看出我们的生成方法具有更为逼真的生成效果,和真实路网贴合的更加紧密。

20210922/c7134cb90959deb9c8229d3b8d22cba8.png

总的来说,由于在第二阶段我们利用了地图图像信息进行轨迹生成,我们提出的方法可以获得更加贴合路网的生成结果。同时,我们的方法可以获得更加符合真实轨迹坐标分布与实际长度的轨迹数据。

北京市海淀区中关村大街59号 电话:(86)10-62511318 传真:(86)10-62515246 邮编:100872

版权所有 © 中国人民大学统计学院