
亚太科研论坛
Asia-Pacific Research Forum
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-3645(P)
- ISSN:3079-9945(O)
- 期刊分类:人文社科
- 出版周期:月刊
- 投稿量:2
- 浏览量:534
相关文章
暂无数据
基于SHAP的上海市日尺度碳排放驱动因素贡献分析
Contribution Analysis of Daily Scale Carbon Emission Driving Factors in Shanghai Based on SHAP
引言
在“双碳”战略目标持续推进的背景下,城市尺度碳排放的精细化监测、预测与驱动机制识别已成为城市治理与地理信息科学、能源环境研究交叉领域的重要议题。相较于年尺度或月尺度研究,日尺度碳排放能够更灵敏地反映城市运行状态、交通出行活动、港口物流强度及短期环境变化对排放水平的影响,更适合刻画城市碳排放的短周期波动特征。与此同时,随着多变量时间序列预测模型在碳排放研究中的应用不断增加,模型精度虽有所提升,但其内部决策过程通常较为复杂,变量对预测结果的贡献来源难以直接解释。
对于城市碳排放研究而言,仅给出预测结果并不足以支撑精细化治理。管理者更关注的是:模型在进行预测时,主要依赖哪些类型的信息;不同变量对预测结果的影响方向和强度是否一致;交通运输、港口物流、周期性活动、气象与空气质量等因素在模型中分别扮演何种角色。因此,如何从“能预测”进一步走向“可解释”,成为当前城市碳排放建模研究中的重要问题。
SHAP(Shapley Additive Explanations)方法为此提供了有效工具。该方法能够将模型输出分解为各输入变量对预测结果的边际贡献之和,从而实现对复杂模型的全局解释与样本层面解释。与传统仅给出重要性排序的做法相比,SHAP不仅能够识别关键变量,还能够揭示变量高值和低值对应的贡献方向及其分布特征,因此更适合用于分析多源变量在碳排放预测中的解释作用。
基于此,本文以上海市为研究对象,采用2019—2024年日尺度碳排放数据及多源外生变量数据,在既有预测模型基础上,引入SHAP方法对不同驱动因素在碳排放预测中的贡献程度进行解释分析。本文重点聚焦于预测体系中的残差修正模块(XGBoost,预测步长),并围绕其SHAP归因结果展开讨论。研究构建包含气象条件、空气质量、交通物流、周期性活动及历史滞后在内的变量体系,通过SHAP识别模型依赖的关键信息来源,并分析不同变量类别的解释差异,以期为城市碳排放精细化调控提供参考。
1 数据来源与变量体系
研究对象与数据来源
本文研究对象为上海市2019—2024年日尺度碳排放。碳排放数据来源于Carbon Monitor Cities数据库,该数据库能够提供城市尺度高时间分辨率的碳排放估计,为短周期排放波动研究提供基础。本文以日尺度碳排放作为被解释变量,并将多源外生变量按统一时间尺度与其对齐。
在数据处理过程中,考虑到多源变量可能存在缺失值、异常值及量纲差异,本文对原始数据进行了缺失值处理、异常值修正和标准化,以保证模型输入的一致性和结果解释的可比性。
1.2 外生变量体系构建思路与分类原则
为刻画上海市日尺度碳排放波动的潜在影响来源,本文构建了五类外生变量体系,包括:
气象变量:用于表征影响能源需求和城市活动的自然环境条件,如温度、风速、气压、云量等;
空气质量变量:用于反映污染状态和环境背景,如PM₂.₅、PM₁₀、O₃等;
交通运输与港口物流变量:用于刻画客运、货运及港口活动强度,是反映城市人类活动的重要信息源;
周期性活动变量:用于描述周内、年内及节假日等制度性时间结构;
历史排放滞后变量:用于反映排放序列的短期惯性与记忆特征。
上述变量的物理或社会经济含义见表1。其中,day_of_week、day_of_year 等时间变量在后续解释中进一步进行了语义抽象,分别表述为“周周期活动强度指标”和“年周期活动强度指标”,对于贡献较高的时间类变量,本文在结果解释中将day_of_week和 day_of_year分别表述为“周周期活动强度指标”和“年周期活动强度指标”,以增强语义一致性与可解释性。
| 变量大类 | 变量子类 | 变量(保留原字段名) | 物理/社会经济含义 |
|---|---|---|---|
| Meteorological conditions
气象条件 |
Temperature-related
温度相关 |
temp, tempmax, tempmin, feelslike, dew, temp_lag_1 | 反映影响居民与工业能源需求(如供暖/制冷负荷)及燃烧效率的热环境条件。 |
| Atmospheric moisture
大气湿度 |
humidity, precip, precipprob, cloudcover | 影响人类活动强度及大气污染物扩散过程。 | |
| Wind-related
风场相关 |
windspeed, windgust, winddir, windspeed_lag_1 | 影响污染物扩散,并间接反映由天气条件驱动的活动模式变化。 | |
| Radiation & pressure
辐射与气压 |
solarradiation, solarenergy, uvindex, sealevelpressure, visibility | 表征太阳辐射输入、大气稳定性及季节性气候背景。 | |
| Air quality indicators
空气质量指标 |
Pollutant concentrations
污染物浓度 |
pm25, pm10, no2, so2, co, o3, pm25_lag_1 | 作为燃烧活动及城市污染水平的代理指标。 |
| Calendar & temporal cycles
时间周期特征 |
Weekly cycle
周周期 |
day_of_week → Weekly activity cycle index | 刻画工作日与周末差异所形成的周期性人类活动模式。 |
| Annual cycle
年周期 |
day_of_year → Annual activity cycle index | 反映能源消费、工业生产及出行活动的季节性变化。 | |
| Calendar & institutional temporal variables
制度性时间变量 |
month, year, is_holiday_or_weekend | 表征由制度安排(节假日、非工作日)导致的城市活动强度及排放差异。 | |
| Traffic & Transportation
交通运输 |
Passenger transport
客运活动 |
passenger_total_volume_10k_person, passenger_rail_10k_person, passenger_road_10k_person, passenger_air_10k_person, passenger_port_10k_person | 反映日尺度出行强度及交通相关能源消耗。 |
| Freight transport
货运活动 |
freight_total_volume_10k_ton, freight_rail_10k_ton, freight_road_10k_ton, freight_air_10k_ton, freight_waterway_10k_ton | 作为工业活动、物流需求及货运排放的代理变量。 | |
| Port operations
港口作业 |
port_throughput_10k_ton, port_inbound_10k_ton, port_outbound_10k_ton | 表征海运物流强度及港口相关能源使用。 | |
| Aviation activity
航空活动 |
airport_passenger_throughput_10k_person | 反映航空运输需求及其对应排放水平。 | |
| Historical emission memory
历史排放记忆 |
Emission lags
排放滞后 |
Total_Emission_lag_1, Total_Emission_lag_3, Total_Emission_lag_7 | 刻画碳排放在日尺度上的惯性与持续性。 |
2 SHAP解释方法
2.1解释对象
本文并不对整个预测框架进行重复描述,而是将可解释性分析对象限定为残差修正模块,即残差XGBoost模型,预测步长为。由于该模块主要用于修正基线预测误差,因此其解释结果更能直接反映误差校正过程中模型主要依赖的外生信息及其对输出偏移的影响。
2.2 SHAP理论基础与贡献分解形式
SHAP(Shapley Additive Explanations)基于合作博弈论中的Shapley值思想,将模型输出表示为基线值与各特征边际贡献之和。对任一输入样本,残差XGBoost输出可表示为:
其中,为基线值,为第个特征对输出的边际贡献。若,表示该特征在当前样本下推动模型输出上调;若,则表示推动输出下调。通过对全部样本中 的统计量进行汇总,可以获得变量的全局重要性。
2.3解释数据与特征规模
本文以残差修正模块在设置下的样本特征作为SHAP分析对象,对应解释样本规模为,特征维度为。该特征集合涵盖交通运输、港口物流、气象条件、空气质量、周期性活动及历史滞后等多类信息。
为从整体排序与样本分布两个层面刻画特征贡献,本文采用两类SHAP可视化结果:
SHAP特征重要性排序图,基于识别全局贡献较高的变量;
SHAP汇总散点图,用于展示变量取值与贡献方向之间的对应关系,并分析其离散性和潜在非线性特征。
此外,本文结合置换重要性与模型内部重要性结果,对关键变量识别的一致性进行辅助验证。
3 驱动因素贡献分析
3.1 全局贡献格局
图2展示了残差XGBoost()在样本集合上的全局特征重要性排序,排序依据为。结果表明,交通出行活动、港口物流活动与周期性活动变量在全局重要性中总体居于前列,说明残差修正过程更依赖反映城市活动强度与制度性节律的信息。
在交通出行维度中,客运总量、铁路客运等变量表现出较高的重要性;在港口物流维度中,港口出港货运规模等变量同样位于前列,提示港口活动强度对误差校正具有较强的信息贡献。此外,day_of_year和day_of_week等时间变量也占据关键位置,说明模型显著利用了年内和周内周期信息来修正预测偏移。
相比之下,气象和空气质量类变量在排序中整体处于中后段。这并不意味着环境因素对真实排放不重要,而是说明在当前特征体系与模型设置下,其对残差校正输出的边际贡献弱于交通—港口活动与周期变量,或者其部分信息已被其他变量间接表征。
3.2贡献方向与分布特征
图3为SHAP汇总散点图,横轴为SHAP值,表示各变量对模型输出相对基线的正向或负向贡献;颜色表示特征取值高低。该图既反映了变量重要性,也揭示了高、低取值对应的贡献方向和分布差异。
第一,交通客运相关变量呈现较明显的方向性特征。以客运总量为代表,高取值样本主要分布在SHAP为正的区域,低取值样本更多分布在SHAP为负的区域,表现出“高值—正贡献、低值—负贡献”的典型模式。这说明在残差校正语境下,当客运活动强度较高时,模型更倾向于上调校正输出。
第二,港口出港货运规模变量也具有明显贡献分布。其高取值样本更多聚集在正向贡献区域,表明港口物流强度变化参与了对预测偏移的修正。需要指出的是,这里反映的是模型对港口活动信息的依赖,而非严格的因果关系。
第三,周期变量体现出结构性校正作用。day_of_year与day_of_week在图3中表现出明显的分布分离和阶段性差异,说明模型利用年内与周内节律信息对预测偏移进行结构性调整。本文将其解释为“年周期活动强度指标”和“周周期活动强度指标”,以突出其作为活动节律代理变量的含义。
第四,气象与空气质量变量整体贡献幅度较小且分布集中。多数环境变量的 SHAP 值集中在零附近,说明其在多数样本下对残差校正输出的边际影响较弱。该结果提示,在当前模型框架下,误差修正的主要信息来源更偏向活动强度与周期结构,而环境变量更多起到辅助作用,或仅在特定情景下表现出更强影响。
3.3关键维度归纳
综合图2与图3,可在模型解释层面归纳出三点结论:
(1)残差XGBoost()在误差校正中更依赖交通出行与港口物流活动强度信息;
(2)周内与年内周期性活动节律在校正过程中具有显著贡献,主要表现为结构性时间校正作用;
(3)气象与空气质量变量在本设置下整体贡献相对有限,其解释力弱于活动强度与周期变量,但可能在特定情景下发挥作用。
为提高关键变量识别的可信度,本文进一步结合置换重要性与模型内部重要性进行比较。结果表明,置换重要性识别出的主导变量与SHAP排序在核心特征层面具有较高一致性,从而增强了“交通—港口—周期变量在残差校正中贡献突出”这一结论的稳健性。
4讨论
4.1解释边界与方法意义
本文基于残差XGBoost()开展SHAP归因分析,所得“变量贡献”结论应理解为模型解释层面的边际贡献,即在既定输入特征体系与模型结构下,哪些变量更能解释残差校正输出的变化。该方法的优势在于能够将复杂预测系统的“黑箱输出”转化为可分解的贡献项,为变量筛选、监测指标优先级识别和后续机理假设提供透明线索。
但需要强调的是,SHAP并不直接提供严格因果识别。其结果可能受变量相关性、交互效应和数据分布结构的影响。尤其在城市系统中,交通活动、港口物流、气象条件与污染状态之间存在复杂耦合关系,某些变量可能更多体现为“状态代理”或“共同变化表征”,而非独立因果驱动。因此,本文对关键变量的讨论限定在模型解释层面,不将归因结果直接等同于真实排放机制。
4.2关键变量识别的一致性
不同重要性度量方法可能因定义差异、特征相关性和模型偏好而给出不同排序。为增强结论稳健性,本文在SHAP归因之外,进一步采用置换重要性与模型内部重要性进行补充验证。结果表明,交通出行强度、港口物流强度以及年内、周内周期变量在不同方法下均处于较高影响等级,说明“交通—港口—周期变量在残差校正中贡献突出”的结论并非由单一解释方法偶然导致,而具有一定稳健性。
4.3 周期变量的解释价值
在日尺度城市排放研究中,时间编码变量常因缺乏直接物理含义而容易被误读为因果驱动。本文通过语义抽象,将day_of_week、day_of_year等变量分别解释为“周周期活动强度指标”和“年周期活动强度指标”,使其从单纯的时间编码转化为城市活动节律的代理信息。该处理一方面增强了结果表达的可读性,另一方面也有助于将时间结构的影响纳入城市制度性与行为性节律的讨论框架。
4.4 环境变量的解释边界
在本文结果中,气象与空气质量变量整体贡献相对较弱,未成为主导特征。这一现象可能有多方面原因:一是交通与港口活动变量已提供更直接的人类活动信号;二是空气质量指标同时受排放与扩散条件影响,模型可能将其视为背景状态;三是气象变量的作用可能具有较强的情景依赖,仅在极端天气过程、季节转换或特定污染过程中更为显著。
因此,本文不将“环境变量贡献较弱”简单理解为“环境因素不重要”,而是认为其在当前模型与样本条件下对残差校正的平均边际贡献弱于活动强度与周期结构。后续可进一步通过分季节分析或极端样本局部解释,检验环境变量是否具有更强的情景敏感性
4.5 信息重叠与结果组织
多源变量体系中不可避免存在相关性与信息重叠。例如,交通客运指标与周期变量都可能反映工作日和周末差异;部分滞后特征可能吸收短期惯性;空气质量指标可能与扩散条件共同变化。为降低相关性带来的误读风险,本文采用类别化叙事(交通—港口—周期—环境—滞后)组织解释结果,并引入置换重要性作为补充,以增强结果的结构性与可接受性。
5结论
本文以上海市2019—2024年日尺度碳排放为研究对象,依托Carbon Monitor Cities 数据库构建多源外生变量体系,并在既有预测框架基础上,聚焦于残差修正模块(XGBoost,预测步长)的可解释性分析。通过引入SHAP方法,本文形成了“全局重要性排序—方向性分布解释—语义抽象提升—稳健性佐证”的分析流程,从而识别模型在短期误差校正中依赖的关键信息来源与主要贡献维度。
研究结果表明,交通出行活动强度与港口物流活动强度相关变量在全局重要性排序中处于前列,且在样本层面呈现较清晰的方向性贡献特征,说明模型对反映城市活动强度的外生信息具有较高敏感性。与此同时,年内与周内周期变量在残差修正中表现出显著贡献,体现出城市活动节律对日尺度排放波动解释的重要性。为增强时间变量的可解释表达,本文将关键时间编码语义化为“活动强度指标”,使解释框架能够在城市制度性时间结构与行为节律层面展开讨论。
相较之下,气象与空气质量变量在整体样本上的边际贡献相对较弱,提示其对误差校正的作用更可能体现为情景化辅助信息。需要指出的是,本文所得结论属于模型解释层面,并不直接等价于严格因果识别。通过引入置换重要性等补充证据,本文进一步验证了关键变量识别的一致性,从而增强了结论的稳健性。
总体而言,本文提出的面向残差校正的SHAP解释框架,能够在不重复模型结构细节的前提下,揭示多源变量在日尺度碳排放预测中的相对贡献,为变量体系优化、监测指标优先级设置以及城市碳减排精细化治理提供解释性分析思路。后续研究可进一步引入时间分段对比、变量交互分析与因果推断方法,以揭示变量作用特征及其阶段性差异,并提升政策情景评估能力。
参考文献:
- [1] Huo D, Huang X, Dou X, et al. Carbon Monitor Cities near-real-time daily estimates of CO₂ emissions from1500 cities worldwide[J]. Scientific data,2022,9(01):533.
- [2] Huang Y, Ou J, Deng Z, et al. Peak patterns and drivers of city-level daily CO₂ emissions in China[J]. Journal of cleaner production,2024,469:143206.
- [3] Zhou Z, Yu X, Zheng Y, et al. Innovative approach to daily carbon dioxide emission forecast based on ensemble of quantile regression and attention BILSTM[J]. Journal of cleaner production,2024,460:142605.
- [4] Tian Y, Ren X, Li K, et al. Carbon dioxide emission forecast: A review of existing models and future challenges[J]. Sustainability,2025,17(04):1471.
- [5] Zhou H, Zhang S, Peng J, et al. Informer: Beyond efficient transformer for long sequence time-series forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2021.
- [6] Carbon emissions prediction based on the Informer combination forecasting model: a case study of Sichuan[J]. Carbon neutral systems,2025,1(01):17.
- [7] Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]//Advances in Neural Information Processing Systems.2017.
- [8] Houdou A, El Badisy I, Khomsi K, et al. Interpretable machine learning approaches for forecasting and predicting air pollution: A systematic review[J]. Aerosol and air quality research,2024,24:230151.
- [9] Ribeiro M T, Singh S, Guestrin C. “Why should I trust you?” Explaining the predictions of any classifier[C]//Proceedings of the22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016.
- [10] Zhang L, Wang L, Ji D, et al. Explainable ensemble machine learning revealing the effect of meteorology and sources on ozone formation in megacity Hangzhou, China[J]. Science of the total environment,2024,922:171295.
- [11] Wang S, Ren Y, Xia B. Estimation of urban AQI based on interpretable machine learning[J]. Environmental science and pollution research,2023,30(42):96562-96574.
- [12] Hou Y, Wang Q, Tan T. Evaluating drivers of PM₂.₅ air pollution at urban scales using interpretable machine learning[J]. Waste management,2025,192:114-124.
