让专业的交通数据服务于每一个城市!
公交刷卡数据分析中的“缜密逻辑”与“精准错误”
上传更新:2018-03-22
        大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。由于政府、企业和研究者的共同重视,大数据技术推进已然成为当前一种战略层面的关注。近些年来,大数据挖掘技术在交通统计分析以及出行行为研究方面体现出较为明显的优势,尤其是在城市交通现状的宏观把控、个体出行行为模式提取与分类以及关联性分析方面提供了比较大的技术支持。然而,尽管交通大数据分析技术早已成为行业内讨论的热门话题,并逐步转化为丰富的行业应用,但目前的“交通大数据”仍属于非完备数据,由于缺乏采集对象本身的社会经济属性、态度意愿以及活动链等信息的有效获取,现阶段的技术应用仍存在一定不足,难以对大数据分析呈现的结果进行有效的解释以及准确性验证,更无法做到进一步的发展趋势预测。很多情况下,我们的大数据分析流程更像是一个逻辑判断过程,只要逻辑是对的就认为分析的结果一定没错,但现实情况其实更加复杂,非对称信息环境下所谓的“缜密逻辑”只能带来啼笑皆非的“精准错误”。
 
  以公交信息化数据为例,公交IC卡刷卡数据中通勤用户卡号ID的辨识和提取是其公交出行行为特征和需求分析的前提,也是公交通勤OD提取的关键。如果根据逻辑上的判断,我们可以以“周”或者“月”作为研究周期,统计每个卡号同时在工作日早晚高峰时段均出现记录的天数,并通过设置“刷卡天数”阈值的方式区分通勤人群卡号。然而,尽管上述方法在公交信息化数据处理环节中较为常见,但对于公交刷卡数据中通勤人群的识别并不适用,尤其是理想化的公交通勤规律假设对于仍处于交通方式结构剧烈变化、居民出行规律多样化的我国大城市来说并不稳定,而且上述方法无法对辨识结果的准确性置信区间进行判断。理由如下:
  (1)通勤高峰时段的确定
  图1-1中是利用了我国某市20个工作日的公交IC卡数据建立的“首末次刷卡时间对”矩阵的频次统计结果。该结果显示绝大多数的持卡者在工作日的6:30-9:00之间开始他们的首次公交出行,并在16:00-21:00之间被记录下最后一次公交刷卡交易。鉴于比较典型的公交通勤人群的行为模式应符合:早晨离开居住地去往工作地,在晚上下班后返回居住地,因此会在工作日早晚较为集中出行并形成一个乘车刷卡组合高峰,即图1-1分析结果图像中的高峰值区域。因此,可以近似地认为该市公交通勤时段为早高峰6:30-9:00以及晚高峰16:00-21:00。
  图1-1 公交通勤高峰时段示意图
  (2)符合通勤规律的“工作日刷卡天数”统计
  假定一张卡号在某工作日上述设定的早/晚高峰时段内各产生一条或一条以上刷卡交易记录,则认为该持卡者当天进行过一次符合通勤规律的公交出行行为。随后,针对刷卡数据样本中的每一张卡号,统计其在4个连续工作周内(20个工作日)符合通勤规律的公交出行天数,并得到公交卡号数(持卡者人数)在不同刷卡天数下的分布情况,如图1-2所示。其中,研究周期内不存在符合上述规律的公交刷卡行为的卡号不在统计范围内。
  图1-2 不同公交通勤天数对应的卡号数分布及其累计百分比
  从图1-2中可以看出,研究周期内(20天)仅有过1次符合上述通勤规律刷卡行为的卡号数大概占总卡号数的22%;总卡号数中约50%的持卡人符合此类规律的刷卡天数少于5天(含5天);而刷卡天数处于8至20天的卡号数分布规律可以被认为趋于均匀分布,对应的卡号数间没有较为明显的波动变化。逻辑上来说,公交通勤人群的工作日刷卡特征较其他人群的规律性更强,其符合公交通勤规律的工作日刷卡天数应该更多。然而,从图1-2中的分布结果中很难明确选择哪一个“刷卡天数”作为通勤人群辨识的“判断阈值”最为合适。根据所谓的“逻辑判断”,我们可以推断说刷卡天数达到“20天”的持卡者为通勤人群,但符合此条件的持卡者数量只有2万人,远远小于该市公交通勤人群的估计量。除此之外,笔者还对上述样本总体中公交IC卡持有者“符合公交通勤规律的刷卡天数”在四个工作周中的统计分布情况进行对比分析,结果显示总体样本中只有40%的持卡人在4个工作周内同时存在符合相应规律的乘车记录,然而这40%持卡人中只有少数在4个工作周内保持稳定的公交通勤特征,大部分持卡人“周”与“周”之间的公交使用特征规律波动较大。因此,即使将研究周期缩短到以“周”为单位,仍无法有效解决“刷卡天数”阈值的设定问题。
 
  (3)小结
  上述统计结果表明,对于该市公交通勤人群来说,其工作日期间的公交使用特征规律可能更加多样化,并不是所有公交通勤者每个工作日都表现出同样的通勤规律而那么轻易地被一套固定不变的数据挖掘逻辑所“捕获”。因此,在如此非对称信息环境下,所谓的“缜密逻辑”并不能很好地应用到具体的数据分析中去,那样只会让数据分析逐步走向“死胡同”。首先,在数据挖掘过程中,通过设置单一固定阈值的方法进行逻辑判断是导致“精准错误”的元凶,应该更多地尝试概率判断;此外,单一数据源的挖掘价值绝对不是永无止境的并且已经日渐枯竭,多源数据融合才是提高大数据应用价值,解决“逻辑困境”的出路。