IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 2023
1 intro
1.1 背景
1.1.1 GPS、CDR与MSD数据
- 之前的地图匹配主要是针对GPS数据
- GPS数据在全球范围内可用且在定位上相对精确
- 然而,GPS也存在一些局限性
- 作为主动生成的数据,GPS耗能大
- 由于需要主动收集,GPS可能无法随时随地获得
- ——>以上两点都限制了GPS数据的规模
- 蜂窝详细记录(CDR)包含拨打/接听电话/短信时的记录
- 在时间和空间粒度上非常稀疏
- 先前的研究表明,“CDR不太可能是轨迹映射问题的好数据源”
- 移动电话信号数据(MSD)包含但不限于CDR,并在以下情况下生成
- (1) 拨打/接听电话;
- (2) 发送/接收信息;
- (3) 开关手机;
- (4) 在基站之间移动;
- (5) 更新手机的定期位置
- ——>时间密度高于CDR
1.1.2 MSD进行地图匹配的挑战
- 大量噪音数据,例如乒乓序列和漂移数据
- 由于手机信号差或其他原因而造成的数据丢失
- 位置不确定性。MSD反映的是蜂窝塔的位置,而不是用户的位置
1.1.3 目前工作的局限性
- 引入了修改后的隐马尔可夫模型(HMM)方法以提高精度
- [39]考虑将速度和方向纳入地图匹配
- 由于较大的位置误差,这两个变量本质上不准确
- [14]考虑历史轨迹、[39]考虑蜂窝塔特性,以提高精度
- 由于隐私政策,获取这些数据可能具有挑战性
- [39]考虑将速度和方向纳入地图匹配
- [32]提出了一种基于Transformer的模型,以基于MSD实现地图匹配
- 一个挑战是缺乏用于训练模型的标记数据
1.2 论文思路
- 提出了一种针对MSD的新型地图匹配方法,结合了增量隐马尔可夫模型(HMM)算法
- 不需要额外输入数据
- 解决了与MSD相关的独特限制
- 主要框架
- 引入了一个预处理模块,专门用于处理漂移数据和解决乒乓序列问题
- 应用基于卡尔曼滤波框架的插值模块和平滑模块,来应对MSD所带来的时空稀疏性和不确定性挑战
- 增量HMM算法引入了转移概率的惩罚机制,以避免在地图匹配时出现来回错误
- 维特比算法用于计算OD旅行在数字地图上的最优路线
2 related work
2.1MSD的时空不确定性
2.1.1 时空分辨率
- MSD数据中的时空不确定性使得传统地图匹配方法的直接应用变得复杂
- 空间不确定性来源于
- MSD提供的是蜂窝塔位置而非用户实际位置
- 蜂窝塔切换和移动通信系统的负载平衡策略
- 时间不确定性来源于
- 用户活动间隔的变化
- 18]在格拉茨和维也纳收集了920小时内的14802条原始信号数据记录真实位置和MSD之间的距离高度不规则,变化范围从13.73米到64.97公里
- 时间分辨率也是如此,最小、平均和最大时间间隔分别为1秒、90秒和5160秒
- 不幸的是,大多数当前的地图匹配方法只处理高采样率数据(通常在1秒至1分钟之间采样),导致对低采样率点的数据不确定性增加,使其效果降低
2.1.2 处理漂移数据和乒乓序列
- 漂移数据——信号记录突然切换到远离前一个蜂窝塔的蜂窝塔,然后立即切回
- 乒乓序列,也称为振荡序列——数据在两个(或更多)蜂窝塔之间频繁切换
- 从空间角度看,乒乓序列为MSD带来了大部分噪音和异常值
- 过去研究中处理漂移数据和乒乓序列数据的方法有三种
基于速度/距离的方法 | 通过设置速度或距离(或两者)阈值来移除异常数据 | 只能处理简单的异常,像乒乓序列,较难处理 |
基于模式的方法 | 基于规则的启发式方法提取特定切换序列作为异常 | 在检测复杂的乒乓序列方面存在困难 |
基于聚类的方法 | 考虑到漂移数据附近的记录点稀疏,而乒乓序列附近的记录点密度显著高于平均值,这两种数据都可以通过基于聚类的方法处理。 | 这些聚类方法忽略了时间维度 |
2.2 路网匹配
3 方法
3.1 数据
- 需要两种类型的数据
- 路网数据
- 从OpenStreetMap下载
- 用于确定候选道路段
- 被建模为一个有向图G(V, E),其中顶点V代表道路段相交的交叉点集合,边E代表段
- 原始移动电话信号数据,RMSD
- 包含移动电话/用户ID、时间戳、蜂窝塔ID以及蜂窝塔的坐标
- 被定义为轨迹集合
- ui表示第i个用户
- 表示用户i在第j个记录的时候连接的基站
- 代表第j条记录的时间戳
- 路网数据
- 观测轨迹To——HMM的输入
- 匹配轨迹Tm——HMM的输出
- Ground truth——TGps
3.2 数据处理
3.2.1 清除漂移数据
3.2.2 处理乒乓数据
经过预处理后,基于RMSD的个人用户轨迹数据可以区分为移动阶段和静止活动阶段,然后被划分为OD旅行。
3.3 地图匹配
3.3.1 插值
3.3.2 平滑
机器学习笔记:卡尔曼滤波-CSDN博客
3.3.3 改进HMM的地图匹配
4 实验
4.1 几个变体
IM——只包含interpolation
SM——只包含smoothing
SIM——只包含interpolation 和smoothing
4.2 数据集
- 中国移动提供的匿名数据
- 对一天内超过20亿条MSD进行了统计分析,得出1/4分位数、平均值和3/4分位数时间间隔分别为28秒、71秒和188秒
- 此外,我们还收集了2021年10月至11月志愿者提供的一个月的GPS轨迹数据和MSD
- MSD点和相应GPS点之间的平均空间距离为290.13米
数据集可在https://github.com/caizy1709/Mobile-phone-Signaling-Data上获取。
4.3 结果
4.4 ablation study
文章来源:https://www.toymoban.com/news/detail-802069.html
文章来源地址https://www.toymoban.com/news/detail-802069.html
到了这里,关于论文笔记:Accurate Map Matching Method for Mobile Phone Signaling Data Under Spatio-Temporal Uncertainty的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!