清华大学中国新型城镇化研究院

1月11日，“房地产可持续发展”研究资助计划相关成果发布会在清华大学举行。本项计划由清华大学恒隆房地产研究中心于2023年初启动，该计划面向清华大学全体教师和研究人员征集，鼓励和支持我校围绕房地产行业的多元场景，开展创新性、跨学科交叉研究等。2023年度研究计划共资助了7项研究。其中，清华大学中国新型城镇化研究院高级研究专员李栋主持负责了研究项目《城市空间特征对公共建筑能耗的可解释机器学习建模：以北京为例》。

图：北京商务中心区。北京日报记者邓伟摄

2023“房地产可持续发展”研究资助成果

城市空间特征对公共建筑能耗的可解释机器学习建模：以北京为例

项目负责人：

李栋，清华大学城市治理与可持续发展研究院副研究员、清华大学中国新型城镇化研究院高级研究专员

项目组成员：

周浩，清华大学城市治理与可持续发展研究院副研究员、清华大学中国新型城镇化研究院副研究员

肖俊，清华大学建筑学院博士研究生

马小淞，中国矿业大学环境与测绘学院研究生

一、研究背景与意义

公共建筑作为城市基础设施的重要组成部分，其能耗水平对城市实现绿色低碳发展至关重要。各国政府纷纷出台相关措施加大公建能耗节能力度。但当前绝大多数公建能耗的研究均从建筑本身出发，采用调查或模拟等技术讨论公建用能特征和建材、设备等影响因素，从城市层面和空间特征出发对公建能耗问题进行研究的工作还较少，这也导致在建设之外的规划、管理等环节还缺乏有效的公建能耗分析手段。

研究的可行性：公共建筑选址规划建设具有一定的特殊性和规律性，公建及其所处城市地段之间往往具有较高的关联，可合理假定公建所处城市区位和空间特点能在一定程度上反映其能耗状况。

研究的必要性：绿色低碳发展涉及规划、建设、管理、运营全生命周期多个环节，当前在城市规划和策划环节缺乏公建能耗快速简便评估方法（如能否通过简单的指定公共建筑物位置和基本特征就可相对可靠的得出其能耗水平），在建成运行后不同公建能耗水平的整体管理和宏观对比方面也缺少评估基准（能否建立多维度的公共建筑物能耗比较基准体系）。

本课题通过对大量不同类型公建能耗及其周边城市空间特征进行关联建模，并探索二者间潜在的影响程度和机制等作用规律，面向规划和评估场景开展研究，通过数据挖掘和对比分析促进建筑物不断提升节能减排水平。为规划、设计和评估人员提供一套技术方法和管理工具，课题成果预期可在以下两方面发挥作用：

规划基准：在规划设计环节，根据选址区位和建筑类型，提供可靠的公建能耗预估工具。

完善评估：在建成后评估环节，公建能耗结果对比分析时可在建筑内部特征之外增加外部建成环境特征，构建更加丰富完善的公建能耗分类评估基准。

二、方法与数据

可解释机器学习（Interpretable machine learning，IML）：

可解释机器学习的目标是解决高维算法“黑盒”问题。在关注预测准确性之外，将可解释性也作为机器学习是否值得信赖的重要考虑。与传统算法评价仅考虑预测精度这一单项指标（如低MSE或高AUC），可解释机器学习不仅能出预测值，还能给出得到该预测值的理由。本课题主要采用事后解释的SHAP方法，其核心思想是计算不同特征对输出结果的边际贡献，从全局和局部两个层次对“黑盒算法”进行解释，根据Shapley value可对每一个特征与结果间的作用关系进行深入理解。

空间分析（Spatial Analysis）：

空间分析主要通过空间数据和空间模型来挖掘空间目标的潜在信息，距离、方位、拓扑关系组成了目标的空间关系。也是地理实体之间的空间特性，作为空间分析数据组织、查询、分析和推理基础。进一步将空间数据和属性数据结合可进行特定任务的空间计算和分析。本课题中对每一栋公共建筑进行空间落位后，基于建筑位置提取周边范围城市空间内的经济社会设施等多维信息，全面表达建筑周边的城市空间特征。

数据说明：

本研究中的模型共11项数据来源，分别来自课题组对北京公共建筑能耗调研，国家青藏高原科学数据中心、天地图、武大、中国联通、链家、高德、NASA，Earth Observation Group、OSM等机构。城市与气象特征为矢量或栅格数据格式，建筑特征数据与月度能耗数据匹配对齐。具体如下表。

表1. 输入数据名称、定义与来源

图1 北京市植被指数数据

图2 北京市手机信令人口数据

图3 北京市气温等气象数据

三、研究成果

样本数据处理成果：

前期获取到北京市公共建筑地址、名字、企业名称、类型、面积、功能、用电等信息，但缺乏准确地址，即没有精确坐标。为提高后续探究中建筑物的空间信息特征的准确对建筑物位置经过多轮次处理和交叉检验，得到公共建筑最终地址空间化结果。综合考虑原始数据质量情况，最终选取3735个电表组纳入训练样本，训练数据规模约4.48万条。

图4 北京市公共建筑空间落位结果

指标设计：

结合规划专业知识，设计特征指标体系。考虑几大方向，一是建筑自身特征，二是建筑区位特征，三是所在区县街道特征，四是建筑周边静态特征，五是建筑周边动态特征，形成五项特征组。每个特征组下设数量不等具体特征指标，共58项特征进入算法。训练和预测目标是月均公建能耗强度（kWh/m2）。

算法性能：

分别设置500米、1000米和1500米不同半径为公建周边的临近城区范围，采集其中人口、设施等相关数据计算特征指标体系。以R2分值（R2_score）为评价指标对算法性能进行排序，轻量级梯度提升机算法（Light Gradient Boosting Machine，LightGBM）、K近邻算法（k-nearest neighbor，kNN）和极限梯度提升（XGBoost）性能较好，R2分值分别达到0.743、0.706和0.620。进一步考察不同半径结果，500米半径取值算法性能更优，LightGBM的R2分值略高于1000米（0.728）和1500米（0.722），表明较小范围的周边城区范围会在更大程度上影响建筑能耗水平。

图5 公建能耗强度实测值（X横轴）和预测值（Y纵轴）整体关系

特征影响分析：

58项特征指标中，影响公共建筑能耗水平前20的城区特征包括电价类型、建筑物类型、建筑面积、建筑类型、周边人口等。在已纳入考虑的特征中，建筑物自身特征重要性合计占37.3%，周边城区空间特征重要性合计占34.1%，区位特征重要性合计占28.7%。

图6 影响公共建筑能耗水平的关键指标排序

通过可视化Shapley值可进一步识别算法发现不同特征指标对公共建筑能耗水平的影响程度差异。如对于建筑物面积特征而言，面积较小的公共建筑（蓝色数据点）容易导致较高的能耗水平（数据点位于纵轴右侧）。

图7 影响公共建筑能耗水平的主要特征Shapley值图

部分依赖图（Partial Dependence Plots，PDP图）可进一步显示不同特征指标对公共建筑能耗水平的影响机制。如月均温度则呈现两头能耗高（低温和高温）、中间能耗低的状况，符合现实状况。类型变量如建筑物类型和所处行政区划也可开展类似分析。

图8 月均温度与公建能耗水平的PDP分析图

图9 周边植被指数与公建能耗水平的PDP分析图

图10 公建类型与能耗水平的PDP分析图

四、研究结论

本课题以北京公建能耗数据为基础，以数据驱动为建模技术路线，建立和训练了考虑城市空间特征、性能基本可靠的公共建筑能耗算法，并通过可解释机器学习技术，分析了公建外部城市空间特征和自身特征对其能耗的影响程度，课题初步搭建了可用于“前规划”与“后评估”等场景下的公建能耗快速评估模拟器工具。后续可在进一步整合建筑物围护、机电信息，完善时序预测能力和拓展应用城市建筑样本等方面进行改进。

李栋：城市空间特征对公共建筑能耗的可解释机器学习建模——以北京为例

订阅Subscribe Newsletter

媒体联系

热门文章Top Articles/

“西北地区高质量城镇化与人居环境建设论坛”成功召开

为中国式现代化城市健康发展“数字画像” ——《清华城市健康指数2022》发布

尹稚教授在《北京周报》(BEIJING REVIEW)发表署名文章《A new take on urbanization》

尹稚：在发展中解决首都发展困境

关于我们

前沿洞察

人才培养

新闻活动