基于随机森林与SHAP的土壤pH空间预测及驱动机制解析——以江苏省为例

刁俊鹏; 董文倩

当前位置：首页 > 科学研究与应用 > 基于随机森林与SHAP的土壤pH空间预测及驱动机制解析——以江苏省为例

科学研究与应用

Journal of Scientific Research and Applications

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-7071（P）
ISSN:
3080-0757（O）
期刊分类:
科学技术
出版周期:
月刊
投稿量:
5
浏览量:
736

基于随机森林与SHAP的土壤pH空间预测及驱动机制解析——以江苏省为例

Spatial Prediction and Driving Mechanism Analysis of Soil pH Based on Random Forest and SHAP: A Case Study of Jiangsu Province

发布时间：2026-04-21

作者: 刁俊鹏 ,董文倩 :江西理工大学江西赣州;

摘要: 土壤pH是影响土壤养分有效性、重金属迁移转化及作物生长环境的重要指标，揭示其空间分布规律及驱动机制，对土壤质量评价和耕地精细化管理具有重要意义。以江苏省表层土壤为研究对象，基于土壤剖面数据和多源环境协变量，在SCORPAN理论框架下，采用Pearson相关分析与递归特征消除交叉验证筛选关键变量，构建随机森林模型进行土壤pH空间预测，并结合SHAP方法分析主要驱动因子的贡献及响应特征。结果表明，随机森林模型具有较好的预测能力和稳定性；江苏省表层土壤pH空间差异显著，受土壤属性、气候条件和地形因子共同影响，其中阳离子交换量、年均气温和纬度等因子作用较强。随机森林与SHAP相结合，可提升土壤pH空间预测精度与模型解释能力，为区域尺度土壤pH制图及驱动机制分析提供了有效方法。

Abstract: Soil pH is an important indicator affecting soil nutrient availability, heavy metal migration and transformation, and crop growth conditions. Revealing its spatial distribution and driving mechanisms is of great significance for soil quality assessment and refined cropland management. In this study, surface soil in Jiangsu Province was selected as the research object. Based on soil profile data and multi-source environmental covariates, key variables were screened using Pearson correlation analysis and recursive feature elimination with cross-validation under the SCORPAN framework. A random forest model was then developed for soil pH spatial prediction, and the contributions and response characteristics of major driving factors were further analyzed using the SHAP method. The results showed that the random forest model had good predictive performance and stability. The spatial variation of surface soil pH in Jiangsu Province was significant and was jointly affected by soil properties, climatic conditions, and topographic factors, among which cation exchange capacity, mean annual temperature, and latitude played relatively important roles. By combining random forest with SHAP, both the prediction accuracy and the interpretability of the model were improved, providing an effective approach for regional-scale soil pH mapping and driving mechanism analysis.

关键词: 土壤pH；随机森林；SHAP；空间预测

Keywords: soil pH; random forest; SHAP; spatial prediction

引言

土壤pH是反映土壤酸碱状况的基础性指标，影响着土壤养分有效性、重金属迁移转化及微生物活动过程，并与耕地质量、农业生产安全和土壤资源可持续利用密切相关。近年来，受集约化农业、酸沉降及人类活动等多重因素影响，区域土壤酸化问题日益突出。如何准确识别土壤pH的空间分布规律及其形成机制，已成为土壤质量评价与区域土壤管理研究中的重要内容。

传统土壤调查能够提供较为可靠的点位土壤pH信息，但由于采样成本较高、空间覆盖有限，难以满足区域尺度连续制图和精细化分析的需求。随着遥感、地理信息系统的发展，数字土壤制图为区域土壤属性空间预测提供了新的技术路径。已有研究表明，气候、地形、植被、土壤母质和土地利用等因素均会影响土壤pH的空间分布，且其作用过程通常具有明显的区域差异性和非线性特征。

围绕土壤pH空间预测，国内外已开展了大量研究。统计回归、地统计学和机器学习等方法均得到广泛应用。其中，随机森林因可处理高维数据、适应复杂非线性关系并具有较强稳健性，在土壤属性预测中显示出应用潜力。然而，现有研究仍存在一定不足：一方面，部分研究更加关注预测精度本身，对关键环境因子的相对贡献、作用方向及响应特征揭示不足，模型解释性仍显有限；另一方面，土壤pH的形成通常受到土壤属性、气候背景与地形条件等多因子的共同影响，机器学习模型虽具有较强拟合能力，但对其内部驱动机制的解释仍不够充分。因此，在提高预测能力的同时增强模型可解释性，已成为当前土壤pH数字制图研究需要进一步突破的问题。

SHAP方法能够从变量贡献角度识别不同环境因子对模型输出的影响，并进一步揭示其方向性和异质性特征。将SHAP与随机森林模型结合，有助于实现土壤pH空间预测与驱动机制分析的统一。尽管相关方法已在土壤有机碳、重金属及其他土壤属性研究中表现出较好的应用前景，但在区域尺度土壤pH空间预测中的研究仍有待深化。

江苏省地处我国东部沿海，区域内气候过渡性明显，地形与土壤类型多样，土壤酸碱度空间差异较为显著。基于此，本文以江苏省表层土壤为研究对象，在SCORPAN理论框架下，结合土壤剖面数据与多源环境协变量，探讨区域土壤pH的空间预测及其驱动机制问题，以期为区域土壤pH制图、土壤质量评价及精细化管理提供科学依据。

1 材料与方法

1.1研究区域

江苏省（116°18′ –121°57′ E，30°45′ –35°20′ N）地处中国东部沿海地带。位于亚热带向温带季风气候的过渡带，气候特征温和湿润、四季分明，年均气温13.9 ~16.2 ℃，年均降水量则800 ~1200 mm。江苏省以平原为主体，占全省总面积的68.8%，地势极为平坦，仅在局部有低矮丘陵，如图1所示。

江苏省土壤类型多样，农田土壤以水稻土、潮土、黄棕壤、砂姜黑土等为主，省内水稻土分布广泛，是主要农业土壤类型之一。

图1研究区地理位置及采样点分布

1.2研究数据

本研究的土壤数据集来源于《中国土系志•江苏卷》，该项调查工作在江苏省全境共布设了236个具有代表性的土壤剖面。原始数据详细记录了各采样点的地理坐标、周边环境条件及一系列土壤理化性质。

首先对该数据集进行预处理与筛选。在剔除了存在关键信息缺失或记录异常的样本后，最终遴选出164个信息完整的剖面样点用于后续的空间预测分析。本研究最终纳入模型的土壤属性指标包括：土壤pH值、容重、阳离子交换量、有机碳含量及全氮含量。所有指标的测定均在实验室条件下完成，其分析流程严格遵循《土壤调查实验室分析方法》的国家标准规范。为保障数据的准确性与可比性，在整个化学分析过程中实施了严格的质量保证与控制程序。确保了最终数据集的高度可靠性与准确性。

1.3 环境协变量

在数字制图领域，SCORPAN模型被广泛用于构建土壤属性空间预测关系的理论框架。该模型数学表达形式为：

（1）

其中，S表示土壤属性，而s,c,o,r,p,a,n分别对应影响土壤形成与分布的七类因子，即已有土壤信息（soil, s）、气候因子（climate, c）、生物因子（organisms, o）、地形因子（relief, r）、母质（parent material, p）、土壤发育时间（age, a）以及空间位置（spatial location, n）。该框架指出土壤属性是多重环境协变量在不同尺度上综合作用的结果，为本研究选择协变量提供了理论依据。

遵循模型的指导原则，并结合研究区的实际情况，本研究构建了包含26个环境变量的协变量集合，涵盖了地形地貌、气候、生物、成土母质、土壤自身属性以及人为活动等多个维度。为表达人为活动对土壤化学性质的干扰，本研究在传统模型框架基础上，额外引入了大气氮沉降（N_dep, 包括NHx-N和NOy-N组分）作为关键代理指标。此外，经度和纬度也被纳入模型，以表达空间自相关性。

地形地貌因子：地形数据源自欧洲航天局（ESA）发布的哥白尼30 m分辨率数字高程模型（GLO-30 DEM），该数据集细节表现力优于同类开源数据。基于此数字高程模型数据，利用ArcGIS10.8分析并提取了一系列地形属性，包括坡度、坡向、平面曲率、剖面曲率、地形湿度指数、水流强度指数及地形位置指数。此外，还借助SAGA GIS9.7.1软件计算了多分辨率谷底平坦度指数与多分辨率山脊平坦度指数。

气候因子：包括干燥度指数、年均气温和年降水量。

植被因子：增强型植被指数、归一化植被指数及叶面积指数通过Google Earth Engine平台获取并处理；植被净初级生产力源自NASA地球科学数据网站；年度平均地表温度则来源于MODIS卫星遥感产品。

为满足后续建模的制图要求，所有环境协变量均在ArcGIS10.8环境中，采用双线性插值法重采样至500 m的空间分辨率。

表1 环境协变量数据集来源

环境协变量	简称	分辨率/m	分类
高程	DEM_Ele	30	地形地貌
坡度	DEM_Slo	30
坡向	DEM_Asp	30
平面曲率	DEM_Plc	30
剖面曲率	DEM_Prc	30
地形湿度指数	DEM_TWI	30
水流强度指数	DEM_SPI	30
地形位置指数	DEM_TPI	30
多分辨率谷底平坦度指数	DEM_VBF	30
多分辨率山脊平坦度指数	DEM_RTF	30
干燥度指数	AI	1000	气候
潜在蒸散发	PET	500
年均气温	MAT	1000
年降水量	MAP	1000
年度平均地表温度	LST	1000
增强型植被指数	EVI	250	植被
归一化植被指数	NDVI	250
植被净初级生产力	NPP	500
氮沉降	N_dep	1000
叶面积指数	LAI	500
土壤容重	BD	-	土壤属性
阳离子交换量	CEC	-
土壤有机碳含量	SOC	-
全氮含量	TN	-

1.4研究方法

1.4.1 Pearson相关分析

Pearson相关分析用于衡量连续型变量之间的线性相关性强度，并在特征筛选阶段辅助识别对目标变量影响较大的核心因子。Pearson相关系数r取值范围为[-1,1]其绝对值越接近1表明变量间的线性关系越强；同时，显著性水平p值用于检验零假设。

在本研究的实践中，首先利用Python科学计算库Scipy中的stats.pearsonr函数，对土壤pH与各环境协变量逐一进行Pearson相关性计算。考虑到多变量分析中普遍存在的多重比较问题，即多次独立检验会显著增加I类错误的累积风险，本研究并未简单依赖传统的p-value阈值。取而代之的是Benjamini-Hochberg程序来控制假发现率（False Discovery Rate, FDR），并设定了更为严格的FDR <0.01的筛选标准。经过校正后的相关系数矩阵及其对应的显著性水平，并借助扇形相关性热力图进行可视化呈现。该可视化方案能够在一个视图中同时整合相关性的强度、方向与显著性水平，从而更直观、全面地揭示土壤pH与多源环境因子之间的线性关联格局。

1.4.2递归特征消除与交叉验证

递归特征消除（Recursive Feature Elimination, RFE）是一种高效的封装式特征选择算法。其基本原理在于通过一个迭代循环过程：首先，利用一个外部的基学习器对全体特征进行训练并评估其重要性；然后，剔除贡献度最低的特征；最后，在剩余的特征集上重复此过程，直至寻找到使模型性能最优的特征子集。然而，单一的RFE过程可能对训练数据的特定划分较为敏感。为规避这种潜在的随机性偏差并提升所选特征子集的泛化能力，本研究采用了嵌入交叉验证（Cross-Validation, CV）的RFE-CV策略。在一个10折交叉验证的框架内执行递归特征消除，通过在多个不同的训练集、验证集上进行特征排序与模型评估，确保了特征选择结果的稳健性与可靠性。

本研究选用随机森林回归模型（RandomForestRegressor）作为RFE-CV算法的基学习器。该模型的选择主要基于两点考量。首先，其在捕捉土壤pH与多源环境因子间复杂非线性关系方面的优越性能；其次，内在的特征重要性评估机制能够为RFE的迭代剔除过程提供一个稳定且可靠的排序基准。在RFE-CV的执行流程中，模型性能随特征数量变化的曲线被绘制出来，曲线的峰值或拐点所对应的特征组合即被确定为最优特征子集。为最终确证该子集的有效性，为最终确证该子集的有效性，利用决定系数（R²）与均方根误差（RMSE）作为评价指标在独立的测试集上评估其性能，确保所选特征在解释能力与预测精度之间达到平衡。

1.4.3 随机森林模型

随机森林（Random Forest, RF）是一种集成学习方法。该模型通过在样本和特征层面引入随机性，构建多棵决策树并进行集成，最终通过多数投票（分类）或平均（回归）得到预测结果。相较于单一决策树，随机森林在降低模型方差、缓解过拟合方面具有显著优势。同时，它能够处理高维数据，适应非线性关系，并可通过计算特征重要性来解释变量对预测结果的贡献。

本研究在模型构建与优化过程中，充分利用了随机森林的内在特性并结合了严谨的寻优策略。随机森林的Bootstrap抽样机制天然地产生了一部分未被抽中的袋外样本（Out-of-Bag, OOB），这些样本可用于对模型进行无偏的内部性能评估。为了更系统、更稳健地进行模型超参数优化，本研究采用了网格搜索与10折交叉验证相结合的策略。具体的超参数搜索空间定义如下：决策树数量（n_estimators）、最大树深（max_depth）、节点分裂时考虑的最大特征比例（max_features）以及Bootstrap采样时的最大样本比例（max_samples）。在交叉验证的每一折中，均采用决定系数（R²）、均方根误差（RMSE）和平均绝对误差（MAE）作为综合评价指标。

最终，在预设参数网格中性能表现最优的超参数组合被选取出来，用于在全部训练数据上构建最终的预测模型，作为后续进行SHAP可解释性分析与全区空间制图的基础。

1.4.4 Shap解释

SHAP是一种基于博弈论中Shapley值理论而构建的模型无关可解释性框架。通过精算出各特征在所有可能组合中的边际贡献，SHAP能够公平一致地将模型的预测输出精准归因到每个特征上。相较于传统的特征重要性度量方法，SHAP最重要的优势在于其坚实的理论基础，确保了解释结果满足局部准确性与一致性等优良性质。这一特性使其具备强大的双重解析能力：在宏观层面，通过对所有样本SHAP值的绝对值求平均，可获得反映全局影响力的特征重要性排序；在微观层面，针对单个样本的SHAP值则能精确揭示每个特征对该特定预测贡献的方向（正向或负向）与量级。

在本研究的实践中，系统性地运用SHAP框架，深度剖析已训练完成的随机森林模型在土壤pH空间预测中的内部决策机制。

1.4.5 精度评价

模型精度评价选用均方根误差（root mean squared error, RMSE）、平均绝对误差（mean absolute deciation, MAE）以及决定系数（R²）三个指标，其计算公示分别为：

（1）

（2）

（3）

式中：为预测值；为真实值的平均值；m为样本数。

2结果与讨论

2.1 土壤pH值描述性统计分析

本研究均使用表层土壤数据（0 ~20cm）。频率分布直方图初步揭示了研究区土壤pH值的总体分布特征，如图2所示。样本pH值域宽广，介于4.2 ~8.7之间，且呈现出典型的多峰分布格局。其中，在pH约6.0和7.8处形成了两个显著的频数峰值，这直观地反映了研究区内酸性与弱碱性土壤并存的二元结构特征，而严格意义上的中性土壤（6.5 ≤ pH ≤7.5）占比较低。这一分布格局表明了研究区土壤pH具有高度的空间异质性，其形成是土壤类型、成土母质及水热条件等多种因素复合控制的结果。

图2 土壤pH分布直方图

土壤pH的定量统计参数，如表2所示。研究区164个样点的土壤pH均值为6.85，标准差为1.06。据此计算出的变异系数（Coefficient of Variation, CV）为15.5%，根据土壤学变异性分级标准，该值归属于中等强度变异。该结果再次确证了研究区土壤酸碱度显著的空间分异特征。这种显著的空间变异性具有双重研究意义：一方面，它为后续机器学习模型的训练提供了理想的数据广度与响应梯度，是构建稳健预测模型的良好基础；另一方面，它也预示着驱动土壤pH空间分布的机制是复杂且多维的.因此，在后续的模型解释阶段，必须深入探究各环境因子在不同地理单元下的差异化作用，以期揭示其内在的驱动机制。

表2 土壤pH特征基本统计

样本数	最大值	最小值	均值	标准差	变异系数%
164	8.7	4.2	6.85	1.06	15.5

2.2 环境协变量优化

为初步探查变量间的线性关系并规避潜在的多重共线性问题，本研究首先对所有候选环境变量进行了Pearson相关性分析。基于Matplotlib绘制的相关性矩阵，如图3所示。图中颜色深浅表示相关性的方向与强度（蓝色为正相关，红色为负相关），同时在单元格内标注相关系数数值，并以符号表示显著性水平（*表示p<0.05，**表示p<0.01，***表示p<0.001）。

图3 Pearson相关性分析扇形热力图

结果表明，土壤pH与多个环境因子存在显著相关性：例如，与Lat呈显著正相关（ r=0.44，p <0.001），与DEM_RTF（r =0.33，p <0.001）、BD（r =0.32，p <0.001）等变量也具有较强的正相关关系；而与MAT（r = -0.46，p <0.001）、SOC（r = -0.45，p <0.001）、CEC（r = -0.38，p <0.001）、MAP（r = -0.37，p <0.001）等变量则呈显著负相关。

按照筛选标准，相关系数绝对值低于0.3的变量被剔除。然而，Lon虽然相关性较低（r = -0.16，p <0.001），但仍被保留用于建模。其原因在于经纬度不仅反映了样点空间位置，还可作为代理变量捕捉未被其他环境因子显式表征的空间趋势信息，从而增强模型对区域性空间异质性的刻画能力。

基于Pearson分析结果，本研究初步确定了建模所需的核心环境因子。在进一步的变量筛选中，本研究采用了递归特征消除结合交叉验证的方法，以避免冗余变量对模型稳定性和预测精度的影响。了特征数量与交叉验证R²的关系曲线，如图4所示。从结果可以看出，随着特征数量的增加，交叉验证得分逐渐上升，并在特征数达到9个时表现最优，此时平均R²稳定在较高水平。灰色曲线反映了各折交叉验证的结果，黑色粗线表示平均R²的变化趋势，红色虚线标示了最优特征数。

图4 特征数量和交叉验证R²

通过上述迭代筛选过程，本研究确定9个最优环境协变量，包括：Lon、Lat、MAT、MAP、NPP、BD、CEC、SOC和DEM_RTF并在独立测试集上取得了较好的泛化表现（R²=0.763，RMSE=0.284），表明筛选后的变量组合能够较为准确地刻画土壤pH的空间分布特征。

2.3 土壤pH建模及参数优化

在确定了最优特征子集的基础上，本研究构建了最终的随机森林预测模型。为确保模型评估的可复现性并降低因随机数据分割所引入的偏差，依据多次实验比较，最终确定并固定采用8:2的比例将数据集划分为训练集与验证集。随后，为寻求模型的最优性能，对关键超参数进行了系统性的寻优。该过程采用网格搜索与交叉验证相结合的策略，以最大化验证集的决定系数（R²）为首要优化目标，并辅以均方根误差（RMSE）和平均绝对误差（MAE）进行综合评估。寻优过程最终收敛于以下最优超参数配置：n_estimators =400, max_depth =20, max_features = sqrt及max_samples = None，使模型在拟合优度与泛化性能之间取得理想平衡。

表3 模型精度

模型	训练集			验证集
模型	RMSE	MAE	R²	RMSE	MAE	R²
RF	0.206	0.110	0.898	0.275	0.173	0.778

最优参数组合下，模型在训练集上的表现为 R²=0.898、RMSE =0.206、MAE =0.110，在验证集上的表现为R²=0.778、RMSE =0.275、MAE =0.173，如表3所示。训练集与验证集性能指标的接近，初步表明模型未出现严重的过拟合现象。与此同时，作为随机森林内在验证机制的袋外评估也提供了有力的佐证，其OOB R²达到了0.680。值得注意的是，OOB R²与验证集R²之间约0.1的差异处于一个合理的、可接受的区间内。因为OOB评分是利用约1/3的、未参与单棵树训练的袋外样本计算得出，通常被认为是模型泛化能力的一个更为保守且无偏的估计。因此，独立验证集与袋外验证结果的高度一致性，共同确证了所构建模型具备良好的稳定性与泛化潜力。

综上所述，经过系统性的特征选择与超参数寻优，本研究构建了一个高精度且性能稳健的土壤pH预测模型。该模型能够有效捕捉土壤pH与多源环境因子之间复杂的非线性关系，其可靠性已通过多重验证指标得到证实。这个经过严格评估与验证的模型，为后续章节中基于SHAP理论的深度机制剖析奠定了坚实的模型基础，确保了可解释性分析结果的有效性与可信度。

2.4 土壤pH空间分布格局

在对随机森林模型的性能进行严格评估与验证之后，本研究利用该最优模型，结合全域的环境协变量数据，生成了江苏省表层（0 ~20 cm）土壤pH的500 m分辨率空间分布预测图，如图5所示。该图直观地揭示了研究区土壤pH高度的空间异质性，并呈现出由南向北逐渐增高的、界线分明的宏观空间格局。

酸性至弱酸性土壤（pH <6.6）主要集中分布于江苏省南部地区。特别是在宁镇扬丘陵区及环太湖地区，土壤酸化现象尤为显著，形成了大面积的蓝色区域（pH <6.3）。这些区域地势相对较高、地形复杂，成土母质多为下蜀黄土及各类岩石风化物，加之亚热带湿润季风气候带来的充沛降水，可能共同促进了强烈的淋溶作用与盐基离子流失，是形成酸性土壤的主要原因。

与此形成鲜明对比的是，弱碱性至碱性土壤（pH >7.2）则大面积分布于江苏省北部，尤其是在徐州、连云港等西北部地区，土壤呈现强烈的碱性特征（pH >7.6）。该区域属于黄淮海平原的一部分，其成土母质多为古代黄河泛滥的冲淤积物，富含碳酸钙等碱性物质，这从根本上奠定了其偏碱性的土壤环境基础。

中性至弱酸性土壤（6.6 ≤ pH ≤7.2）则构成了从南部酸性区域向北部碱性区域过渡的广阔中间地带，主要沿长江两岸及中部沿海平原分布，呈现出复杂的交错格局。

综上所述，预测图不仅在空间上精准地再现了江苏省土壤pH的复杂分布状况，其清晰的南北分异格局也与前文分析中识别出的关键驱动因子，特别是具有显著纬度梯度的气候因子（如MAT）和受母质影响的土壤属性（如CEC）的宏观分布高度吻合。

图5 模型预测结果图

2.5 SHAP解释结果

为在宏观层面上量化各环境变量对土壤pH预测的相对贡献度，本研究计算了所有特征的平均SHAP绝对值。如图6所示，分析结果明确揭示了驱动因子间显著的层级分异。CEC作为最重要的预测变量，其影响力远超其他因子，确立了其在模型中的核心地位。紧随其后，MAT与Lat亦表现出显著的影响力。

图6 SHAP条形图

2.6关键因子的边际效应与阈值分析

为进一步隔离并量化单个关键环境变量对土壤pH的边际效应，本研究引入了偏依赖分析（Partial Dependence Analysis, PDP）。作为一种模型无关的可解释性技术，PDP通过在数值上控制其他所有协变量的平均影响，能够直观地刻画出目标变量对特定输入特征变化的净响应模式。该方法对于识别变量间复杂的非线性关系、关键拐点及阈值效应尤为有效。基于SHAP分析所识别出的重要因子，选取了CEC、MAT、DEM_RTF和MAP进行深度剖析，如果图7所示。

图7 偏依赖特征分析

分析结果揭示了各驱动因子非线性的影响模式：

（1）CEC表现出强烈的非线性抑制效应。其偏依赖曲线呈现清晰的三段式特征：在CEC低于14 cmol/kg的区间，预测的土壤pH维持在约7.2；继而，当CEC处于14 ~18 cmol/kg范围内时，土壤pH呈现出急剧的负向响应，曲线斜率最大；此后，随着CEC值进一步增高，该抑制效应趋于饱和，pH值稳定在约6.8。这明确地将14 ~18 cmol/kg的范围标定为土壤酸化响应最为敏感的关键阈值区间。

（2）MAT的影响则呈现出典型的阈值突变特征。在MAT低于15.5 ℃时，其变化对土壤pH的边际影响几乎可以忽略。然而，一旦跨越15.5 ℃这一临界点，预测的pH值便急剧衰减，从约7.0迅速跌至6.7以下。该模式强烈暗示，存在一个关键的环境温度阈值，超过此阈值将可能触发或急剧放大土壤酸化的相关生物地球化学过程。

（3）DEM_RTF与土壤pH呈现非线性的正相关关系。随着指数值从1增加至8，即地形由崎岖向平坦山脊过渡，预测的土壤pH在全局平均的视角下稳步提升，揭示了地形地貌在宏观尺度上对土壤酸碱状况的系统性调控作用。

（4）MAP的整体影响则较为温和。尽管其偏依赖曲线总体呈负向趋势，但下降坡度平缓，且仅在MAP超过约820 mm后，下降速率略有增强。其总体影响幅度显著小于CEC和MAT。

偏依赖分析不仅从方法论上确证了关键因子与土壤pH之间复杂的非线性关系，更重要的是，它精准地识别出了CEC和MAT等主导因子发挥作用的关键阈值与响应区间。这些发现为理解土壤pH对环境变化响应的非单调性和突变性提供了深刻的定量化见解，并与SHAP分析的局部归因结果形成了有力的互补与印证。

3结论

本研究构建了一个融合特征筛选、随机森林预测和SHAP解释的土壤pH空间分析框架，实现了土壤pH空间制图与驱动机制识别的结合。该框架不仅关注预测结果本身，也兼顾了模型解释能力，有助于提升数字土壤制图研究的完整性。

江苏省表层土壤pH的空间分布受多种环境因子共同影响，其中土壤属性、气候条件和地形因子共同构成了主要控制背景。研究结果表明，土壤pH的形成机制具有明显的综合性和非线性特征，单一因子难以充分解释其空间变化。随机森林方法能够有效表达土壤pH与多源环境变量之间的复杂关系，说明机器学习方法在区域尺度土壤pH预测中具有较好的适用性。尤其是在多因子耦合、变量关系复杂的条件下，该方法能够较好发挥非线性建模优势。

SHAP分析增强了模型结果的可解释性，使关键因子的相对贡献、作用方向及响应特征得以更加清晰地呈现。偏依赖分析表明，关键环境因子对土壤pH的影响具有一定的阈值性和阶段性特征，说明土壤pH对环境变化的响应并非简单线性过程。这一认识对于理解区域土壤酸碱度形成机制及其环境响应具有重要意义。

本研究仍以静态空间预测为主，受样点数量、环境变量时相一致性及数据分辨率等条件限制，对土壤pH时空动态过程的表达仍有不足。未来可进一步结合多时相环境数据与农业管理信息，开展面向动态变化过程的预测与解释研究。

参考文献：

[1] 程金,张思文,黄文卿,等.福建省耕地土壤pH空间分布及影响因素分析[J].中国农业大学学报,2022,27(12):90-101.
[2] 何明江,黑儿平,晋雷雨,等.近30年四川省土壤pH时空变化特征研究[J].植物营养与肥料学报,2024,30(06):1142-1151.
[3] 李金梅,黄梅,康吉利,等.1984-2019年广西土壤pH演变特征[J].生态学杂志,2024,43(11):3317-3323.
[4] 李文婷,黄顺生,许伟伟,等.淮安市土壤pH时空变化特征及影响因素[J].中国土壤与肥料,2025(01):1-14.
[5] 邱士其,赵明松,芦园园,等.基于XGBoost模型的安徽省土壤pH空间建模[J].科学技术与工程,2023,23(04):1472-1480.
[6] 梅帅,童童,应纯洋,等.基于机器学习的数字土壤制图研究进展[J].农业资源与环境学报,2024,41(04):744-756.
[7] 黄思华,濮励杰,解雪峰,等.面向数字土壤制图的土壤采样设计研究进展与展望[J].土壤学报,2020,57(02):259-272.
[8] 仇皓雷,王海燕.机器学习在土壤性质预测研究中的应用进展[J].生态学杂志,2025,44(01):283-294.
[9] 黄华雨,丁启东,张俊华,等.基于Sentinel-2和可解释机器学习的河套平原农田土壤盐分和pH反演[J].应用生态学报,2025,36(08):2407-2419.
[10] 夏露,张强,孙宁,等.1960-2012年江苏省气候变化特征[J].冰川冻土,2015,37(06):1480-1489.

科学研究与应用

Journal of Scientific Research and Applications

相关文章

基于随机森林与SHAP的土壤pH空间预测及驱动机制解析——以江苏省为例

Spatial Prediction and Driving Mechanism Analysis of Soil pH Based on Random Forest and SHAP: A Case Study of Jiangsu Province

引言

1 材料与方法

1.1研究区域

1.2研究数据

1.3 环境协变量

1.4研究方法

1.4.1 Pearson相关分析

1.4.2递归特征消除与交叉验证

1.4.3 随机森林模型

1.4.4 Shap解释

1.4.5 精度评价

2结果与讨论

2.1 土壤pH值描述性统计分析

2.2 环境协变量优化

2.3 土壤pH建模及参数优化

2.4 土壤pH空间分布格局

2.5 SHAP解释结果

2.6关键因子的边际效应与阈值分析

3结论

参考文献：