城市是人类生活的第一空间,据世界银行的统计,2009年全世界50%的人口都聚集在城市,而在发达国家城市化率达到70%到80%的水平。一半的人都生活在城市空间里,人的大量创造力都集中在这个空间,同时人的生活场景又是地球上变化最快的。比如,楼会建的越来越高,桥会修的越来越漂亮,交通工具也在不断的发生变化,这只是表象性的表现。内在的表现是人们生活很小的部分都在产生变化。
曾经北京地铁票是纸质的,需要每次购买,而今天坐地铁刷一下卡就可以了;曾经,地铁上的人都不会得颈椎病,而今天地铁上的人们,都在注视着手机,他们脸上幸福的样子也是不一样的;中国是自行车大国,被称作是自行车轮子上的国家,今天人们还会骑自行车,还会打出租车,但是即便是一样的交通工具,今天也有了极大的不同。不同的是今天的自行车装上了智能硬件,通过手机终端把它的位置和空间都进行了管理和记录,这就是所谓城市信息化的过程。
城市的变化体现在生活中的很多方面,而城市信息化过程核心任务是从一个物理空间映射到信息空间,空间中所有的业务都会留下电子痕迹,在服务器里堆积起来这就形成了城市大数据。而一旦形成了城市大数据,原来搞城市信息化的工作者也会转而去做人工智能、机器学习和数据挖掘等,对数据进行第二轮城市信息化,被称之为城市智能化,其定义是使用数据知识实现城市管理升级。这两个过程是信息技术在业务的流程上和业务决策过程中不同的层面介入到各个行业中的过程。
在大数据时代,通过底层收集数据、中间有足够的模型层支撑的应用系统的建立,实现城市的智能化,更好的解决城市人口、公共服务和公共安全问题。
一、基于手机信令数据的城市人口统计
手机的信令数据在城市人口统计方面可以发挥非常大的作用。以北京昼夜分布图为例,日间人口分布可以推断人的工作区,而夜间人口分布可以推断人的居住区,可以看出天通苑和回龙观区域夜间人口分布较多,可推断这里的人以居住功能为主,对城市人口疏解起到重要作用。通过手机信令数据还可定点分析区域内的人的居住地和工作地情况,以通州区人口"职住行"分析为例,可以分析出通州工作人口的居住地分布和居住人口的工作地分布,早晚高峰通州市民通勤方向及来源,进而得出通州可承接国贸地区部分非首都功能,强化亦庄北京经济技术开发区功能,起到城市功能疏解的作用。
利用手机信令大数据识别城市的外来人口的核心问题是如何从信令数据中提取预测相关因子。研究的思路是从信令数据中分别提取用户的职住行为(空间信息)和通话行为(时间信息),并利用多视角深度学习分别学习空间、时间特征,然后进行特征融合建模。而问题的关键是要给人贴标签,对容易识别的特征打标签,去训练不容易被识别的人群,里面包含了降维升维的技术处理,使得这个数据得到更好的训练,更好地发现外地人的活动特征。比如,通过时间和位置域,很容易识别他是否是一个外地人,但是在打电话的行为域里却不容易被识别,这个时候,可以用容易识别的给他打好标签,用新的表现去训练不容易识别的域。因为机器学习的特点是样本越多,他的学习能力越好。通过验证,应用该方法算出来的外来人口与无锡人口普查得出的数据是非常接近的。
通过对外来人口居住地分布图可以看出外来人口主要分布在市中心以外的环形地带,这和北京人的分布是相似的。城市的边缘也有很多外来人口,一方面靠近城市边缘本身就有很多外地人,另外很多市区工作的人为了节省居住成本用空间成本来代替。对于这类人群,通过通话行为的集中度来看一个较为明显的现象是外来人口睡觉更晚,因为居住在外地,晚上可能会给父母、老婆孩子打电话,另外,为了在工作上有所成就,可能会工作到更晚。
外来人口居住地分布图
二、公共服务设施使用预测
此外,大数据分析可以实现公共服务设施的使用预测。城市的形成很大程度上是公共建筑的出现,像罗马斗兽场,各地的教堂,它们能够提供公共服务,围绕公共服务会有人群的聚集。现代城市大型公共服务的选址也很重要,比如购物中心、体育场、学校。结合不同的数据信息,可以通过新的视角完成选址。以深圳公立医院为例,对其进行基于矩阵分解的服务点客流预。从数据分解显性知识与隐性知识的独特角度出发,对公立医院的客流进行预测。显性知识是居住点和服务点周围的地理上下文,隐性知识是指居住点到服务点的客流量的其他隐性驱动力。融合隐性的知识,建立矩阵,进行预测。矩阵表达就是为了融合隐形知识。比如淘宝东西推送就是通过矩阵表达算法计算的。结合两种知识,就能够实现精准的公共服务设施使用预测,从而为公共服务设施的选址提供支撑。
三、城市安全分析与预测
最重要的应用在城市安全上,如识别北京市城市危险品运输存在的隐患,实现监测和溯源。主要挑战是空间轨迹的挖掘,危险区域的识别和危险状态的预测。首先用手机信令数据来看北京的人口分布和天津的人口分布,然后把危险品车辆的轨迹数据在地图上标记出来,把两个数据融合分析,实现危险品的隐患点识别。以北京和天津两个城市为例进行分析,结果显示北京的东直门和东四风险较大,分析原因得出该区域餐饮业发达,尤其是大家习惯在这里吃火锅,有很多液化气罐。天津地区的风险集中在天津港码头附近,正好是8.12天津滨海新区爆炸事故的发生地。因此,城市危险品运输安全分析与预测可以为城市提前防范起到重要作用。
声明:文章未经授权不得转载、摘编或利用其它方式使用。已授权使用作品的应在授权范围内使用,并注明"来源:清华大学中国新型城镇化研究院"。违反上述声明者,本网将追究其相关法律责任。
本文为研究院开放课题“基于深度学习与手机信令大数据的城市外来人口识别与行为分析”(编号K-17002-01)中期成果
文 / 王静远,北京航空航天大学计算机学院副教授