Type C 2021
1 intro
1.1 背景
- 来自移动网络运营商的通话详单(CDR)作为一种较新的移动性数据,已经被用来:
- 推导人类移动的一般法则
- 建立OD 矩阵
- 推断人口密度变化
- 理解城市土地使用情况
- CDR呈现了一种独特的可取特性组合:
- 提供了前所未有的渗透率,因为它们适用于网络提供商的整个订户基础,通常覆盖数千万或数亿用户
- 在长时间内连续记录,允许进行数月或数年的细粒度纵向研究
- 被被动收集并维护在精心管理的数据库中
- 但CDR在空间和时间定位精度方面有根本性的局限性
- 空间上,移动设备的位置只能映射到其关联的基站的覆盖区域
- 时间上,采样过程由语音呼叫建立或文本消息传输的发生驱动,这两者都是稀疏且分布不均匀的
- ——>限制了CDR对于需要高水平时空细节的研究的效用
- 一个对空间和时间精度要求严格的应用典型示例是在城市环境中推断细粒度以人为中心的轨迹。
- 目标是重建每个移动电话设备的单独行程,以高精度推断出关于实际路径的信息
- 图1(a)显示了CDR记录的一个示例城市位移的定位样本;CDR样本的线性插值(实线红色)与实际用户通过GPS记录的轨迹(虚线蓝色)
1.2 论文思路
- 使用网络信令数据(NSD)
- 由移动设备的所有交互生成的,这些交互是电信系统的操作和管理所必需的
- 与CDR中仅存在的呼叫和文本相关事件相比,NSD发生的频率要高得多:例如,图1(b)示出了在图1(a)相同情况下更多的NSD样本和由此产生的改进的插值轨迹
1.3 论文贡献
- 提出TRANSIT(TRAjectory inference from Network SIgnaling daTa),一个新框架,处理NSD以
- 区分每个移动设备的运动间隔和静止活动时期
- 在相关运动间隔期间推断细粒度的人类移动性轨迹
- 该框架利用人类移动性的重复性质,即同一个个体通常在两个相同的给定位置之间进行多次旅行,通常遵循非常相似的路径
- 这在移动性信息中创建了冗余,TRANSIT利用这些冗余来提高轨迹的时空精度
- TRANSIT依赖于NSD固有的高采样率,实现了在每次行程中设备所遵循路径的准确和可扩展的重建
- 图1(c)显示了使用TRANSIT为图1(a)中相同的示例行程推断的轨迹
- 用一小组志愿者收集的ground-truth GPS轨迹验证TRANSIT,显示它在识别运动时期方面达到80%的精确度和96%的召回率,以及在轨迹估计上平均190米的空间精度
- 对法国两个主要城市巴黎和里昂的一家主要网络运营商的整个订户基础进行了应用
- 能够识别2019年三个月内超过1000万个个体的480万条轨迹,并显著提高其中1000万条的准确性
- 利用这样的独特信息进行初步探索
- 使用公共交通与其他模式的旅行比例
- 大都市规模的通勤路径
- 举办特殊活动的特定城市区域的吸引力
- 通过巴黎大都会区周围环形道路的不同部分的旅行的流动性模式
- 第一个大规模使用NSD进行流动性分析
2 related work
2.1 CDR数据的时空挑战
- 在过去的二十年中,CDR一直是人类移动性相关的大量研究的核心
- 旅行需求的估计
- 土地使用
- 城市结构的特征
- 城市动态的分析
- 人口密度的估计
- 人类活动模式的发现
- 尽管CDR具有潜力,但它们固有的时空偏差和稀疏性阻碍了它们被普遍用于与城市规划和交通相关的操作目的
- ——>很多论文围绕改善基于CDR方法的质量 开展研究
- 时间维度:
- 利用人类活动的重复性质
- 通过对同一用户在足够长的时间内的观察来捕获
- 通常基于机器学习技术并依赖于自定义的时空距离来检测轨迹相似性
- 空间维度:
- 与CDR相关的地理信息通常只以用户在移动电话事件发生和记录时所关联的基站的坐标的形式出现
- 传统上,通过Voronoi或其他规则(例如基于网格的)镶嵌移动网络拓扑,并将每个基站分配的地理区域选为用户在该基站记录事件时的位置
- 在最传统的Voronoi镶嵌案例中,CDR的空间分辨率仅取决于基站的密度,范围从密集城市区域的几百米到农村地区的几公里
- 与CDR相关的地理信息通常只以用户在移动电话事件发生和记录时所关联的基站的坐标的形式出现
- 影响CDR时空维度的另一个重要问题是蜂窝通信的振荡现象
- 即使在用户实际移动性不存在的情况下,也很容易在两个或多个天线之间发生振荡
- ——>增加了从CDR数据中推断的定位信息的噪音,并使得可靠地区分静态和移动会话的任务变得极其困难
- 时间维度:
- ——>很多论文围绕改善基于CDR方法的质量 开展研究
2.1.1 DECRE框架——从CDR中消除振荡并减少空间不确定性
- 采用了基于启发式的方法,包括三个主要步骤
- 检测
- 通过检测用户CDR轨迹中记录的连续事件对之间的高速过渡来识别可能导致振荡的可疑事件序列
- 扩展
- 通过在可疑序列之前和之后的固定时间间隔内探索用户的手机活动来扩展先前识别的可疑序列
- 移除
- 从CDR轨迹中移除被识别为导致振荡的可疑序列的事件
- 检测
- 序列中的每个天线都会收到一个分数,该分数取决于它在序列中出现的频率和它到序列中其他天线的平均距离
- 得分最高的天线对应的事件被保留,而其他的则被过滤掉
- 尽管这种过滤程序可以通过移除振荡产生的噪音来提高空间精度,但得到的轨迹仍然受限于蜂窝网络的原始位置信息(即天线坐标),因此显示出较大的空间不确定性。
2.1.2 累积加权移动平均(CWMA)
- 作者认为,这些振荡不是直接过滤掉,而是可以用来更准确地推断用户位置
- 如果发生振荡,用户应该通过三角测量位于这些振荡天线的重心
- ——>在给定时间窗口内计算用户连接到的所有连续天线的加权重心,从而平滑每个手机位置
- 利用CWMA技术将给定用户生成的手机事件序列分割为一组移动和静态会话
- 通过CWMA计算的连续平滑位置之间的用户速度被计算出来;如果速度低于某个阈值,则事件被标记为静态
- 如果一系列被标记为静态的事件的持续时间超过给定阈值,则定义为静态会话
2.2 NSD工作
- 使用NSD来感知城市网络中的交通状况
-
EXIMIUS: A measurement framework for explicit and implicit urban traffic sensing. In: SenSys 2018 - Proceedings of the 16th Conference on Embedded Networked Sensor Systems.
-
-
使用NSD来进行个体蜂窝使用预测
-
Cellpred: A behavior-aware scheme for cellular data usage prediction. Proc. ACM Interact. 2020 Mob. Wearable Ubiquitous Technol
-
- Miff human mobility extractions with cellular signaling data under spatio-temporal
uncertainty.2020 Proc. ACM Interact. Mob. Wearable Ubiquitous Technol
-
提出了MIFF
-
利用个体相似的移动模式作为在对NSD进行地图匹配以推导个人轨迹之前的初步步骤
-
-
本文的TRANSIT和MIFF最为接近,区别是:
-
MIFF需要一个具有相似轨迹的用户数据库,论文独立地操作每个用户的数据来克服这个限制——隐私性更好
-
不涉及任何地图匹配——更高效
-
3 数据
3.1 数据介绍
- NSD包含由所有与法国Orange公司网络关联的设备在2G、3G和4G蜂窝技术中产生的网络数据平面事件
- 语音和文本通信
- 通信过程中设备小区变更
- 位置区(LA)和跟踪区(TA)更新(跨越更大区域的小区变更,这些更大的区域在2G/3G中称为LA,在4G中称为TA,也影响到空闲设备)
- 主动寻呼(即,由网络端发起的定期请求以更新设备位置)
- 网络接入和脱离(即,设备开机/关机时加入或离开网络)
- 数据连接(即,为移动应用程序在设备上产生的流量分配资源的请求)
- NSD涵盖了在法国两个主要大都市区,即巴黎和里昂(DP和DL)
3.2 时空准确性
3.2.1 时间准确性
- 上图展示了连续NSD事件之间时间的累积分布函数(CDF)
- 分布是根据每个设备记录的(a)中位数和(b)平均事件间隔时间计算的
- CDR:仅捕获语音和文本通信事件
- CDR+:在CDR的基础上,增加里位置区(LA)和跟踪区(TA)更新的CDR
- 论文直接从现有的NSD数据库中推断出CDR和CDR+,仅保留由这些数据源捕获的事件(类型(i)和(i)+(iii))生成的时空样本,同时过滤掉与所有其他网络事件类型相关的信息
- 根据图2:
- NSD为90%的用户提供了低于1分钟的中位事件间隔时间,而该数字对于CDR+增长到5分钟,对于CDR超过30分钟
- NSD保持90%的用户的平均值低于15分钟,而CDR+和CDR记录的平均到达时间分别高达1小时和3.5小时
- ——>与CDR相比,NSD确保了采样率提高了一个数量级,与CDR+相比提高了5倍
3.2.2 空间准确性
- NSD、CDR、CDR+和任何其他网络数据类型都是在相同的无线接入网络基础设施上收集的
- 论文使用一小部分志愿者收集的真实GPS数据进行了实验,计算所有生成的网络事件相关联的天线位置与当时的GPS位置之间的距离
- 重复该过程以获取所有CDR、CDR+和NSD事件,得到的平均距离在三种情况下非常相似,介于0.26到0.28公里之间
- 然而,由于采样率的提高,NSD提供了作为整体更精确的空间轨迹表示
- 这在图1的图(a)和(b)中一个单一轨迹的图表中清楚地显示出来
- 在图3的图(a)和(b)中同一用户的多次行程的图表中可能展现出来
3.3 无线技术的影响
- 论文涵盖了2G,3G,4G三代网络技术
- 从一代蜂窝网络到下一代,事件数量增加了一个数量级以上
- 早期工作(05~15年的工作)则只能依赖有限的2G和3G数据
4 TRANSIT 框架
4.1 整体框架
4.1.1 基本思想
- TRANSIT的基本思想是利用个体移动性的固有规律性,结合NSD的高时间分辨率,来重建城市区域内个体的细粒度移动性
- 之前的研究已发现了人类移动特征的高度规律性,并可能利用它来帮助进行粗略的移动性推断
- 事实上,早期研究中使用的 CDR 已经能够展现这种规律性,如图3(a)所示。
- 然而,NSD 提供了更精确的个人移动规律性感知,如图3(b)所示,TRANSIT 正是利用这一点
4.1.2 输入
- 收移动设备 𝑖 的 NSD 事件集合 作为输入
- 是为设备 𝑖 记录的第 𝑛 个 NSD 事件
- 每个 NSD 事件是移动设备与电信网络基站天线之间的通信活动的结果,涵盖所有 2G、3G 和 4G 技术
- 它被定义为一个元组
- c是处理网络事件的天线位置
- t是事件被记录的时刻
- 它被定义为一个元组
4.1.2 输出
- TRANSIT 处理以连续生成两个输出
- 轨迹识别
- 将中的每个 NSD 事件标记为静态的/动态的
- 构建一组静态活动会话集合 和移动会话集合
- 轨迹增强
- 利用“同一个体通常在两个给定位置之间进行多次旅行的事实,通常沿着非常相似的路径”,来提高轨迹的时空精度
- ——>最终的输出是用户i的静态活动会话集合和带有增强轨迹的移动会话集合
- 轨迹识别
4.2 轨迹识别
- 假设用户 𝑖 在与事件关联的天线上花费的时间是 ,即到下一个事件 的时间跨度
- 由于 NSD 的高时间分辨率,这种简单的方法已经能够很好地估计用户与特定天线的关联时间,并且计算成本低
也就是说,这边的静态事件可以在几个天线中切换,但必须都是静态天线
4.3 轨迹增强
- 在这一阶段,TRANSIT 旨在改善移动信息的地理正确性
- ——>使用为同一用户识别的多个类似轨迹的信息来相互提高它们的精确性
- 第一步,计算用户i的所有移动会话对的相似性度量
- 这里使用豪斯多夫距离数学笔记/scipy 笔记:豪斯多夫距离(Hausdorff )_python计算hausdorff系数-CSDN博客
- 第二步,应用DBSCAN,将具有相似空间几何形状的轨迹分组
- 一个组中的轨迹对应于用户在同两个静态活动位置之间的多次不同旅行
- 分成了不同的cluster+一些outlier
- 对于中的轨迹,TRANSIT 进行空间增强
- 首先,计算由 DBSCAN 分配到同一空间集群的所有轨迹的持续时间
- ——>对应于用户 𝑖 在同一起始-目的地活动位置之间旅行的预期时间
- 过滤掉那些持续时间与中位数偏差 50% 或更多的轨迹
- 这些移动会话被认为不代表目标路径上的常规移动模式
- 然后,同一集群中保留的轨迹在时间上被缩放(即拉伸或压缩),以匹配集群的平均旅行时间
- 最后,缩放后的轨迹根据一分钟的固定时间段临时分组,并对同一时间段内所有不同事件的空间坐标进行平均
- ——>每分钟一个位置的位置集,代表重构的行程
- 如果在特定时间段内没有事件,那么结果增强的轨迹将缺少位置
- 首先,计算由 DBSCAN 分配到同一空间集群的所有轨迹的持续时间
- 集群中的所有轨迹都匹配到重构的轨迹上,他们在空间维度上变得相同
- 然后再通过时间维度的压缩或拉伸,重新调整到它们原来的持续时间
- 这一组增强的轨迹被记为
- 中的轨迹不进行空间增强,相当于从 NSD 数据的简单插值得到的轨迹
- ——>最终的移动会话集合为和的并集
5 实验(小规模数据)
5.1 实验数据
- 验证所用的匿名轨迹数据是由四名 Orange 订阅用户自愿同意通过安装在其智能手机上的 GPS 跟踪应用来进行监控,并为其 NSD 数据从网络运营商数据库中提取出来
- 这四名用户的 GPS 和 NSD 数据,在接下来被标识为 A, B, C 和 D,在法国里昂市的连续三个月期间,即 2019 年 3 月 15 日至 6 月 15 日收集
- GPS 数据的采样率为 5 秒一次,作为ground-truth
- 虽然志愿者的规模有限,但与最先进研究相比,他们收集了更多的人类轨迹样本
5.2 轨迹识别的评估
- 真阳性(𝑇𝑃)是标记为静态的 NSD 事件数量,当用户在 GPS 数据中也被认为是静态的;
- 假阳性(𝐹𝑃)代表标记为静态的 NSD 事件数量,而根据地面真实情况用户实际上是移动的;
- 假阴性(𝐹𝑁)对应标记为移动的 NSD 事件数量,而用户在 GPS 数据中是静态的
- TRANSIT 和 CWMA 都获得了相当高的精确度和召回率,通常在 75% 至 100% 的范围内
- 与 CWMA 相比,TRANSIT的总体 F1 分数提高了 5%
- CWMA 缺乏去除静态活动阶段期间发生的振荡的工具
- 它将这类事件标记为移动,并高估了移动事件的发生率。
- 同时作为副产品,CWMA 检测到大量不存在的轨迹
5.3 空间增强的评估
5.3.1 baseline
- DECRE/CDR:由 DECRE 实施的轨迹重建方法,应用于从 NSD 中推断出的 CDR 数据。
- CWMA/CDR+:CWMA 采用的轨迹重建方法,应用于从 NSD 中提取的 CDR+ 数据。
- Raw NSD:直接从 NSD 插值得出的轨迹,这是一个重要的比较基线。
- DECRE:DECRE 实施的轨迹重建方法,在 NSD 上运行。
- CWMA:CWMA 采用的轨迹重建方法,在 NSD 上运行。
5.3.2 metric
- 𝐷𝐺𝑃 𝑆:计算每个ground-truth GPS 点与推断出的轨迹中最近的位置在空间上的地理距离的平均值
- 𝐷𝑁𝑆𝐷:计算推断出的轨迹中每个点与其在空间上最近的 GPS 点之间的平均地理距离。
5.3.3 结果
5.4 采样率的影响
- 考虑了提供给 TRANSIT 的 NSD 的时空稀疏性的影响
- 将每个用户 𝑖 ∈ {A, B, C, D} 的 NSD 随机子采样,然后在这些更稀疏的轨迹上运行 TRANSIT 的轨迹增强方法
- 由于子采样的随机性质,他们对每个不同采样比率的指标 𝐷𝐺𝑃 𝑆 和 𝐷𝑁𝑆𝐷 进行了 10 次试验的平均
文章来源:https://www.toymoban.com/news/detail-827965.html
- 在观察 𝐷𝐺𝑃 𝑆 时,采样比率对 TRANSIT 性能的影响是边际的,即使仅保留 10% 的 NSD 事件。与从 Raw NSD 的简单插值得到的轨迹相比,TRANSIT 在空间精度方面的相对增益从 40% 增长到 60%,因为后者显然受到降低的 NSD 采样频率的负面影响。
5.5 历史时间跨度的影响
文章来源地址https://www.toymoban.com/news/detail-827965.html
5.6 具体实现
- TRANSIT 在 PySpark 中实现,并在移动网络提供商设施部署的 Spark 集群上运行。
- Spark 执行环境包括 50 个执行器,每个执行器配置有 4 个核心和 28 GB 的内存。
- TRANSIT 的所有主要算法组件都通过 PySpark 用户定义函数(UDF)实现,并以分布式方式应用于我们分析中考虑的所有订阅者网络信号迹象的整体数据集。
- 为了处理大规模数据集中的三个月 NSD,需要进行特定的优化
- 在不同的优化措施中,特别关注对成对 Hausdorff 距离矩阵的计算,这是我们方法中最耗时的步骤(大约占总计算时间的 70%)。
- 具体来说,研究者避免计算具有不同起点和/或终点的轨迹对的 Hausdorff 距离。在这种情况下,他们将这些轨迹对的距离设置为大于参数 𝐷𝑚 的值,从而使 DBSCAN 无法将它们聚类在一起
- ——>这种简单的优化允许节省大量计算时间,同时保持聚类结果不变
6 大规模数据的实验
- 通过计算 TRANSIT 推断出的同时活跃行程的数量,研究者能够重建城市地区旅行需求
- 为了使这些需求在尺寸上正确,需要进行重新调整,以考虑到技术的渗透率(在像法国这样的发达国家接近 100%)和 Orange 的市场份额(在法国领土上为 37%)
到了这里,关于论文笔记:TRANSIT: Fine-grained human mobility trajectory inference at scalewith mobile network signalin的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!