中国生态农业学报(中英文)  2021, Vol. 29 Issue (6): 1042-1050  DOI: 10.13930/j.cnki.cjea.200939
0

引用本文 

任必武, 陈瀚阅, 张黎明, 聂祥琴, 邢世和, 范协裕. 机器学习用于耕地土壤有机碳空间预测对比研究——以亚热带复杂地貌区为例[J]. 中国生态农业学报(中英文), 2021, 29(6): 1042-1050. DOI: 10.13930/j.cnki.cjea.200939
REN B W, CHEN H Y, ZHANG L M, NIE X Q, XING S H, FAN X Y. Comparison of machine learning for predicting and mapping soil organic carbon in cultivated land in a subtropical complex geomorphic region[J]. Chinese Journal of Eco-Agriculture, 2021, 29(6): 1042-1050. DOI: 10.13930/j.cnki.cjea.200939

基金项目

国家自然科学基金项目(41971050)、福建省科技计划项目(2017N5006)、农业农村部农技推广项目(KLD19H01A)、中央引导地方科技发展专项(2018L3013)和福建农林大学科技创新专项基金项目(KFA18106A)资助

通信作者

陈瀚阅, 主要研究方向为定量遥感和土壤地理。E-mail: Chenhanyue.420@163.com

作者简介

任必武, 主要进行土壤属性制图研究。E-mail: rbw126@126.com

文章历史

收稿日期:2020-11-22
接受日期:2021-01-20
机器学习用于耕地土壤有机碳空间预测对比研究——以亚热带复杂地貌区为例*
任必武1,2, 陈瀚阅1, 张黎明1, 聂祥琴1, 邢世和1, 范协裕1     
1. 福建农林大学资源与环境学院/福建省土壤生态系统健康与调控重点实验室 福州 350002;
2. 福建农林大学公共管理学院 福州 350002
摘要:耕地土壤有机碳(SOC)是土壤质量的重要指标,也是生态系统健康的重要表征。当前机器学习(Machine Learning,ML)用于SOC数字制图日益热门,但不同算法在高空间分辨率SOC数字制图中的对比研究尚有欠缺。本研究以福建省东北部复杂地形地貌区为例,采用10 m空间分辨率Sentinel-2影像数据,选取地形、气候、遥感植被变量为驱动因子,重点分析当前常用的机器学习算法——支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)在SOC预测中的差异,并与传统普通克里格模型(Ordinary Kriging,OK)进行比较。结果表明:基于地形、遥感植被因子和气候因子构建的RF模型表现最佳(RMSE=2.004,r=0.897),其精度优于OK模型(RMSE=4.571,r=0.623),而SVM模型预测精度相对最低(RMSE=5.190,r=0.431);3种模型预测SOC空间分布趋势总体相似,表现为西高东低、北高南低,其中RF模型呈现的空间分异信息更加精细;最优模型反演得到耕地土壤有机碳平均含量为15.33 g·kg-1;RF模型和SVM模型变量重要性程度表明:高程和降水是影响复杂地貌区SOC空间分布的重要变量,而遥感植被因子重要性程度低于高程。
关键词复杂地貌区    耕地土壤有机碳    机器学习算法    普通克里格    数字土壤制图    
Comparison of machine learning for predicting and mapping soil organic carbon in cultivated land in a subtropical complex geomorphic region*
REN Biwu1,2, CHEN Hanyue1, ZHANG Liming1, NIE Xiangqin1, XING Shihe1, FAN Xieyu1     
1. College of Resources and Environment, Fujian Agriculture and Forestry University/Key Laboratory of Soil Ecosystem Health and Regulation of Fujian Province, Fuzhou 350002, China;
2. School of Public Management, Fujian Agriculture and Forestry University, Fuzhou 350002, China
Abstract: Soil organic carbon (SOC) is a key indicator of soil quality and ecosystem health. At present, machine learning (ML) models for predicting soil properties based on environmental variables are increasingly popular; however, the performance of different ML algorithms in predicting and mapping SOC, especially at high spatial resolutions, have not been compared. This study aimed to develop, evaluate, and compare the performance of Support Vector Machine (SVM), Random Forest (RF), and Ordinary Kriging (OK) models for predicting and mapping the SOC contents in the northeast of Fujian Province. Remote sensing vegetation indices were derived from Sentinel-2 image data with a spatial resolution of 10 m. These vegetation indices, along with selected terrain and climate factors, were adopted as environmental variables to map SOC using the SVM and RF models. The results showed that the performance of the RF model (RMSE[root-mean-square error]=2.004, r=0.897) was better than that of the OK model (RMSE=4.571, r=0.623) and explained most of the SOC spatial heterogeneity. The SVM model had the poorest prediction accuracy (RMSE=5.190, r=0.431). SOC mapped from the three models had similar spatial patterns, with an increasing SOC gradient from east to west and from south to north of the study area. SOC in the farmlands predicted with the RF model varied in the range of 15.33±4.07 g·kg-1. Elevation and rainfall were the most important variables for the RF and SVM models, respectively, whereas the remote sensing vegetation indices were less important than elevation.
Keywords: Complex landform    Soil organic carbon of cultivated land    Machine learning    Ordinary kriging    Digital soil mapping    

耕地土壤有机碳(SOC)是影响土壤养分和理化性质的重要因素, 也是衡量土壤质量和肥力的重要指标[1-3]。获取SOC含量及空间变化对提升土壤结构、保证粮食安全和缓解全球气候变化具有重要意义。传统的土壤制图方法因在大量采样点的采集和分析上存在困难, 限制了其在大范围复杂地形地貌区的应用[4]。数字土壤制图方法, 如传统的普通克里格法(Ordinary Kriging, OK)因简单、插值效果显著[5], 以及具备良好的空间自相关性[6], 而得到广泛应用[7], 但其未能考虑土壤属性与环境因子间复杂的非线性关系[8], 限制其在复杂地形地貌等SOC可能产生剧烈变化区域的应用。

随着3S技术的发展, 基于机器学习算法(Machine Learning, ML)建立的辅助环境变量与土壤属性之间的预测模型已越来越多地被用于区域土壤属性空间预测。如随机森林算法(Random Forest, RF)因其处理多元非线性数据方面的优势而在SOC空间预测研究中表现较为突出[9]; 支持向量机算法(Support Vector Machine, SVM)在解决高维问题和非线性问题等方面表现出良好的泛化能力和预测性能[10], 也逐渐被用于SOC空间预测研究。如: Wiesmeier等[11]利用RF模型成功预测半干旱草原生态系统SOC的空间分布(R2=0.76); Sreenivas等[12]基于RF模型算法利用气候、土壤、植被等辅助变量模拟并预测印度地区SOC空间分布特征(R2=0.82); Emadi等[13]利用SVM模型成功预测了伊朗地区森林环境下SOC含量(R2=0.55)。在不同方法预测SOC对比研究中, Were等[14]得出东非森林土壤环境下SVM模型表现(R2=0.64, RMSE=14.88)优于RF模型表现(R2=0.53, RMSE=17.57); 而Siewert[15]则发现冻土环境下RF模型预测效果(R2=0.736, RMSE=14.13)优于SVM模型预测效果(R2=0.726, RMSE=14.9); 杨煜岑等[16]对西安市SOC进行研究也发现随机森林模型表现最好(r=0.78)。

由此可见, RF和SVM等ML算法具备提高复杂地貌区SOC空间模拟精度的潜力, 但不同ML算法用于区域SOC模拟的研究仍处于起步阶段, 尤其在不同算法的对比研究方面仍需有所补充。不同算法可能适应不同变量组合和不同环境下的SOC预测, 因此需要对不同算法的预测精度进行对比分析。此外, 国内多基于单一模型对简单地貌类型的小尺度区域进行预测研究, 且空间分辨率多为中低分辨率[17], 不能准确反映复杂地貌区零碎耕地图斑上SOC含量, 而高空间分辨率更能捕捉SOC空间分异特征。针对福建省小而破碎的耕地图斑, 10 m空间分辨率更有利于捕获SOC空间分异特征, 因此有必要对高分辨率影像数据SOC应用效果进行评价。

目前, 全国性的土壤普查已积累了大量的土壤样点及其属性数据, 可为高空间分辨率SOC预测模型对比研究提供极为便利的研究条件。基于此, 本研究以典型的亚热带复杂地貌区为例, 选取较易获取的地形因子、遥感植被因子、气候因子等辅助变量作为模型输入, 分别通过RF模型和SVM模型预测SOC, 并与普通克里格插值方法进行比较, 找出适合耕地SOC预测的方法, 以期为复杂地形地貌区SOC空间分布预测提供理论基础。

1 材料与方法 1.1 研究区概况

研究区位于福建省东北部(24°59′~27°4′N, 118°08′~120°44′E), 包括宁德、福州和莆田3个地级市(图 1), 南北长约880 km, 东西宽约490 km, 区域总面积29 829.26 km2, 其中耕地面积4747.5 km2, 地跨福建省最大的水系——闽江, 流域面积超过60 000 km2, 约占全省面积的1/2。该区位于鹫峰山脉、太姥山脉和戴云山脉之间, 海拔高度400~ 1500 m, 地形地貌复杂, 以山地、丘陵、盆地和平原为主, 其中山地(> 500 m)面积高达70.18%, 丘陵(300~500 m)面积达20.01%。全年受到亚热带季风气候和地形影响, 年平均气温为17~21 ℃, 平均降雨量为1400~2000 mm, 主要集中在3—8月, 雨量充沛, 光照充足, 适合农作物生长。全区耕地以水稻土为主, 占耕地总面积的79.51%。

图 1 研究区地理位置、采样点分布及不同采样点土壤有机碳(SOC)含量范围 Fig. 1 Location, distribution of soil sampling sites and soil organic carbon content (SOC) ranges of sampling sites of the study areas
1.2 数据来源与处理

研究区SOC数据来源于国家农业农村部2017年末测土配方调查样点数据, 共计1128个(图 1), 每个样点均按照代表性、均匀性和适当性原则进行采样, 采样深度为0~20 cm, 采样的同时记录采样点GPS位置信息, 最后对采集样品进行风干、筛选备用, 其中土壤有机质含量采用重铬酸钾氧化-外加热方法测定。其他辅助数据包括1∶50 000福建省土地利用现状数据库和1∶50 000土壤类型数据库, 分别来源于福建省国土资源厅和农业农村厅, 并于ArcGIS 10.2中空间叠加后提取耕地图斑作为研究区评价底图。本研究选取与SOC空间分异密切相关的遥感植被指数、气候因子和地形因子3类辅助因子作为预测环境变量(表 1)。

表 1 影响土壤有机碳的环境变量 Table 1 Environmental variables affecting soil organic carbon
1.2.1 遥感植被因子

植被指数基于Sentinel-2卫星影像数据计算得到, 空间分辨率为10 m, 数据来源于欧洲航天局(European Space Agency, https://scihub.copernicus.eu)。影像选取植被生长旺盛的季节以有效反映有机质状况, 且云量低于10%, 保证数据质量。利用ArcGIS 10.2对影像数据进行大气校正、镶嵌和裁剪等预处理, 统一坐标系为WGS_1984_UTM_Zone_ 50N, 获得研究区地表反射率, 最后通过波段运算(Band Math)计算比值植被指数(RVI)和归一化植被指数(NDVI)以反映植被生长状况, 计算公式如下:

$ \operatorname{RVI}=R_{\mathrm{NIR}} / R_{\mathrm{red}} $ (1)
$ \mathrm{NDVI}=\left(R_{\mathrm{NIR}}-R_{\mathrm{red}}\right) /\left(R_{\mathrm{NIR}}+R_{\mathrm{red}}\right) $ (2)

式中: RNIR为近红外波段, Rred为红光波段。

1.2.2 气候因子

研究区气候因子包括月最高温、月最低温和月降水量等栅格数据, 空间分辨率约为4.6 km, 来自世界气象数据库(WorldClim Database, http://www.worldclim.org/)。年降水量通过波段运算对月降水量进行求和计算, 月最高温和月最低温分别求和, 平均得到年最高温和年最低温。利用ArcGIS 10.2对3类气候因子进行镶嵌、裁剪、掩膜等预处理, 并统一坐标, 最后通过最邻近算法(NEAREST)重采样为10 m空间分辨率得到结果。

1.2.3 地形因子

研究区地形因子中DEM数据由福建省ASTER GDEM数据通过镶嵌、裁剪等预处理, 统一坐标并通过最邻近算法将30 m空间分辨率重采样为10 m空间分辨率得到, 来源于地理空间数据云(Geospatial Data Cloud, http://www.gscloud.cn/), 相关衍生因子(坡度、坡向、曲率等)在ArcGIS 10.2通过Spatial Analyst模块计算得到结果。

1.3 SOC空间预测模型构建 1.3.1 环境变量筛选

影响SOC含量的环境变量众多, 模型训练之前需对模型变量进行筛选。机器模型因被称为“黑匣子”而不能揭示环境变量与目标变量之间的函数关系, 因此将每个变量依次排除在模型之外, 根据RMSE增减对变量进行筛选, 其中RMSE增加则变量保留, 反之剔除。

1.3.2 随机森林模型

随机森林(RF)是一种组合分类器的学习算法, 在回归树模型基础上发展而来, 它是利用bootstrap重抽样的方法[18]从原始样本中抽取多个样本, 对每个抽取样本进行决策树建模, 然后组成多棵决策树进行预测, 通过投票得出最终预测结果。模型用于回归预测时, 取所有回归树预测的平均值作为最后的输出结果[19]。其中n_estimators和max_depth两个参数最为重要, 分别代表决策树的数量和决策树的最大深度。根据RMSE筛选后的环境变量和SOC实测值为自变量和因变量参与模型计算, 通过网格搜索[14] (Grid Search CV)工具设置参数选项n_estimators值(500、600、700、800、900和1000)和max_depth值(15、16、17、18、19和20)进行逐次参数组合计算, 根据训练集和验证集R2最为接近为原则, 确定决策树数量(n_ estimators=600)和决策树的最大深度(max_ depth=16)为最优参数对SOC进行预测。RF模型的构建和预测通过python中Random Forest Regressor模块实现。

1.3.3 支持向量机

支持向量机(SVM)是在统计学理论的基础上, 以结构风险最小化为原则建立起来的机器学习模型, 通过生成最优分离平面, 控制参数、调节模型结构, 实现经验风险和结构风险的最小化[20]。SVM回归预测基于不敏感函数及核函数算法进行计算, 针对非线性回归, 常通过非线性映射核函数(Φ)把数据映射到高维空间进行线性回归处理[21], 其中惩罚系数(C)和不敏感损失函数(ε)两个参数最为重要, 用于平衡误差和调整模型复杂程度[22]。根据RMSE筛选后的环境变量和SOC实测值作为模型输入, 通过网格搜索工具(Grid Search CV)设置参数选项C值(5、8、10、12、15、18和20)和ε值(0.01、0.005、0.001、0.0005和0.0001)进行逐步参数组合计算, 根据训练集和验证集R2最为接近为原则, 确定惩罚系数(C=10)和损失函数(ε=0.001)为模型外推的最优参数进行SOC的空间预测。SVM模型的构建和预测通过python中SVR模块实现。

1.3.4 普通克里格

普通克里格(OK)基于SOC的空间自相关性, 进行内插或外推来达到预测SOC的目的, 其实质就是对SOC实测数据进行线性无偏最优估计[23]。OK模型基于SOC实测样点于ArcGIS 10.2中通过3D Analysis模块进行空间插值得到预测结果。

1.4 模型对比 1.4.1 模型精度对比

针对3种模型(RF、SVM、和OK模型)整体精度, 采用80%的训练样本和20%的验证样本进行SOC的模拟与验证, 通过均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R2)和相关系数(r)定量化模型精度并进行比较, 其中RMSE、MAE越小, R2r值越接近1, 表明模型预测精度越高; 不同范围SOC模型精度通过不同比例5次随机抽样计算RMSE平均值得到(抽样比例分别为30%、40%、50%、60%、70%、80%、90%), 避免样点在不同范围数量较少带来误差的不准确。

1.4.2 模型变量重要性对比

去除某一环境变量计算RMSE与全部环境变量RMSE的差值代表该变量重要性大小, 差值越大表明该因子相对重要性程度越高, 以此比较同一机器模型不同变量的重要性大小以及不同模型反演SOC环境变量组合间的差异。

1.4.3 模型预测SOC空间分布对比

比较RF、SVM模型和OK模型预测SOC空间分布图, 对差异性较大的区域放大对比, 用于评价SOC预测模型空间异质性的优劣。

1.5 区域SOC反演

基于研究区耕地图斑对预处理好的辅助变量进行裁剪得到耕地对应的遥感植被因子、气候因子、地形因子等环境变量, 并作为机器模型的输入对象, 最后得到不同机器模型预测SOC空间分布格局; OK模型预测结果基于SOC实测样点于ArcGIS 10.2进行插值并重采样为10 m得到。ArcGIS 10.2中完成SOC空间分布图的制作。

2 结果与讨论 2.1 不同模型预测SOC精度对比

基于SOC实测样点对不同模型性能进行统计, 结果如图 2。根据RMSE、MAE、R2r 4个模型指标比较: RF模型得到最低的预测误差和最高的r值(RMSE=2.004, R2=0.880, r=0.897), 模型表现最优, 能解释SOC 88%的空间变异性; 相较于RF模型, SVM模型和OK模型中RMSE分别增加159.0%和128.1%, 误差较大。在SOC所有含量范围的误差中RF模型均低于其他模型(图 2d), 表现最好; 在SOC为10~15 g∙kg−1和15~20 g∙kg−1范围内SVM模型误差低于OK模型误差, 而在其余SOC含量范围SVM模型误差高于OK模型。

图 2 随机森林(RF, a)、支持向量机(SVM, b)和传统普通克里格模型(OK, c)预测土壤有机碳含量(SOC)模型表现和不同模型预测土壤有机碳范围均方根误差(RMSE, d) Fig. 2 Performance of soil organic carbon content (SOC) prediction of Random Forest (RF, a), Support Vector Machine (SVM, b) and Ordinary Kriging (OK, c) models and RMSEs in different soil organic carbon ranges predicted by different models (d)

表 2, 不同方法预测SOC中值和平均值都与实测结果接近, 约为15 g∙kg−1, 但变异系数和标准偏差均变小, 预测结果范围被明显压缩, 这与Siewert[15]预测亚北极SOC结论一致, 主要因为算法回归趋于平均所导致; 相较于RF和OK模型, SVM模型这一现象更为明显, 压缩范围高达56.03%; 从标准偏差(SD)和变异系数(CV)发现, 3种算法中, RF模型预测结果的SD和CV与实测值最为接近, 更能表征SOC的动态变化范围。总之, 3种预测模型中, RF表现最佳, 其次OK模型, SVM相对最弱。

表 2 不同模型土壤有机碳(SOC)预测值与实测值对比 Table 2 Comparison of predicted by different models and measured soil organic carbon (SOC) values
2.2 RF和SVM模型变量重要性对比

图 3所示, RF模型中重要性占主导地位的变量主要包括最低温度(Mint, 87)、高程(DEM, 75)和降水(Rainfall, 48); SVM模型中重要性占主导地位的变量主要包括降水(Rainfall, 93)、高程(DEM, 28)和地形起伏度(Rel, 22), 其中Rainfall和DEM在山区SOC的贡献率表现突出[24]。Mza等[25]认为地形和降水在一定程度上改变了土壤性质促进SOC的积累, 杨煜岑等[16]和任丽等[17]在SOC研究中也发现DEM是影响SOC最重要的变量之一; 且张厚喜等[26]和钟兆全[27]分别运用不同模型预测福建省SOC, 发现高程是影响SOC含量的重要因子, 且SOC含量随海拔的升高而增加, 与本研究观点一致。

图 3 随机森林(RF)和支持向量机(SVM)模型因子重要性对比 Fig. 3 Comparison of importance of environmental variables in Random Forest (RF) and Support Vector Machine (SVM) models

两种模型中遥感植被指数NDVI和RVI对SOC重要性都低于高程和降水, 但都作为贡献因子参与模型预测, 对SOC空间预测不可或缺。Guo等[28]预测海南橡胶园SOC, 齐雁冰等[29]针对陕西省SOC研究中也发现遥感植被因子重要性均低于高程, 且卢宏亮等[30]和马冉[23]在SOC空间预测研究中均得到相同结论。SVM模型中坡向(Aspect)因子被排除不参与SOC建模; RF模型中地形起伏度(Rel)、地形湿度指数(TWI)和平面曲率(Plan) 3个因子被排除不参与模型计算, 其余因子[剖面曲率(Profile)、坡度(Slope)、年最高气温(Maxt)]对模型的贡献率较低。年最低气温(Mint)在RF模型中贡献率较高而在SVM模型中贡献率较低。

2.3 土壤有机碳空间分布

图 4展示了不同模型预测的SOC空间分布状况。总体上看3种模型预测的SOC空间分布相似, 呈现出北部、中部高于南部地区, 西部高于东部沿海地区的分布态势。统计分析发现(图 5), SOC空间分布特征与3类环境变量代表性因子(DEM, Rainfall, NDVI)呈现明显的相关性。针对亚热带复杂的高山地貌环境, 一般海拔越高, 降水量越高, 越有利于SOC的积累, 这与本研究中SOC与高程和降水呈正相关的结论一致(图 5a, b), 且这一结论被多位学者所证明[31-33]。植被是SOC含量的重要来源, 控制着土壤有机质含量的输入, 故遥感植被指数NDVI与SOC含量呈现明显的正相关关系(图 5c), 这与Shi等[34]观点相一致。研究区北部、中部和西部地区(SOC高值区)高海拔高降水的土壤环境有利于SOC的积累和保持, 形成较高的SOC分布格局; 东部沿海与南部低海拔地区SOC含量低于北部、中部和西部高海拔地区, 可能是SOC积累速率较低导致。

图 4 基于随机森林(RF, Ⅰ)、支持向量机(SVM, Ⅱ)和传统普通克里格模型(OK, Ⅲ)的福建省土壤有机碳空间分布图 Fig. 4 Spatial distribution maps of soil organic carbon of Fujian Province estimated by Random Forest (RF, Ⅰ), Support Vector Machine (SVM, Ⅱ) and Ordinary Kriging (OK, Ⅲ) models
图 5 基于随机森林(RF)、支持向量机(SVM)和传统普通克里格模型(OK)预测的土壤有机碳(SOC)含量与代表环境因子的关系 Fig. 5 Relationships between representative environmental factors and soil organic carbon (SOC) contents predicted by Random Forest (RF), Support Vector Machine (SVM) and Ordinary Kriging (OK) models

选取不同模型预测SOC分布差异较大的子区域(图 4Ⅰ-Ⅲ, a, b框)对SOC空间异质性进行比较发现: 机器模型(RF模型和SVM模型)所表达空间异质性更为精细, 而OK模型空间表达相对粗糙, 主要归因于OK模型仅考虑SOC空间自相关因素, 而缺乏对影响SOC多种环境因子的考量[35]图 2d不同范围SOC误差对比得出: RF模型在SOC所有范围误差最小, 故RF模型预测SOC空间分布更为平滑, 预测结果更为精细(图 4Ⅰ); SVM模型在高值区(> 25 g∙kg−1)和低值区(< 5 g∙kg−1)存在较大的预测误差(RMSE > 9.2, 图 2d), 造成SOC预测值过于趋向平均, 其SOC空间分布上表现为高值低值区较少(图 4Ⅱ), 不能完全反映SOC的动态变化范围。最后, 无论从模型精度还是空间异质性表达, RF模型表现最优, 可用于亚热带复杂地貌环境的SOC预测。以下仅对最优模型预测的SOC空间分布状况进行描述。

RF模型预测SOC含量均值为15.33±4.07 g∙kg−1, 范围是3.57~29.91 g∙kg−1, 其中SOC中高值区(> 20 g∙kg−1)主要分布在鹫峰山脉和戴云山脉的高海拔地区, 仅占研究区总面积的4.13%; SOC中低值区(< 10 g∙kg−1)主要分布于福州平原和兴化平原等低海拔的沿海地区, 占研究区总面积的5.15%; 10~20 g∙kg−1区间所占面积超过90%, 位于海拔高低过渡带之间。

2.4 局限性分析

福建省地形地貌环境复杂, 本研究选取了容易获取的地形因子、气候因子以及遥感植被因子参与模型构建并预测SOC, 但缺乏人类活动对SOC影响的研究。实践证明农业活动[36](如: 轮作、灌溉、施肥)等人为要素对SOC尤其表层SOC含量产生重要影响, 如: 尹萍[37]认为农业活动会改变表层SOC含量, 影响气候等自然环境变量与SOC的关系; 田慎重等[38]研究发现保护性轮作措施能有效提高表层SOC含量。因此, 寻找更多SOC相关性强的辅助变量以及能代表人类活动的替代因子作为模型输入将是提高SOC预测准确度的重要途径之一。

本研究仅针对两种机器模型(RF模型和SVM模型)预测SOC, 并与OK进行比较, 机器模型应用较少, 而未来SOC研究需要更多的机器学习方法进行对比研究, 如: 分类树[39](Classification Tree models)、朴素贝叶斯[40](Naive Bayesian Classifier)、人工神经网络[41](Artificial Neural Network)等, 随着机器模型的发展, 深度神经网络(Deep Neural Networks, DNN)也被应用于数字土壤制图, 如: Emadi等[13]研究伊朗北部地区SOC发现DNN模型优于其他机器模型, 表现最好。因此, 多种机器模型的评估和比较更有利于对研究区SOC空间分布状况进行整体而全面的把握。

3 结论

本研究基于福建省复杂地貌区大量实测样点和10 m空间分辨率Sentinel-2卫星影像数据, 选择植被遥感变量、地形变量以及气候变量作为模型输入, 重点比较RF模型和SVM模型在模型精度、变量重要性和空间分布的差异, 并与OK模型进行对比。结果显示: 1)从模型误差和相关系数比较, RF模型表现最好(RMSE=2.004, R2=0.880, r=0.897), OK模型次之, SVM模型表现相对最差(RMSE=5.190, R2=0.193, r=0.431); 2) RF模型和SVM模型重要性变量选择上, 高程和降水最为重要, 与SOC呈正相关关系, 而遥感植被因子重要性低于高程, 也与SOC呈正相关关系; 3) 3种模型预测SOC空间分布趋势总体一致, 表现为: 北、中、西部高海拔地区SOC含量高于南部和东部低海拔地区, 相较于SVM和OK模型, RF模型能体现更多的空间变异性信息, 空间异质性表达更为精确, 可作为复杂地貌区SOC含量预测的高效方法。

参考文献
[1]
李玲, 张少凯, 吴克宁, 等. 基于土壤系统分类的河南省土壤有机质时空变异[J]. 土壤学报, 2015, 52(5): 979-990.
LI L, ZHANG S K, WU K N, et al. Analysis on spatio-temporal variability of soil organic matter in Henan Province based on soil taxonomy[J]. Acta Pedologica Sinica, 2015, 52(5): 979-990.
[2]
FROGBROOK Z L, OLIVER M A. Comparing the spatial predictions of soil organic matter determined by two laboratory methods[J]. Soil Use and Management, 2006, 17(4): 235-244. DOI:10.1111/j.1475-2743.2001.tb00033.x
[3]
鲁如坤. 土壤农业化学分析方法[M]. 北京: 中国农业科技出版社, 2000
LU R K. Analysis Methods of Soil and Agricultural Chemistry[M]. Chinese Agricultural Science and Technology Press, 2000
[4]
FORKUOR G, HOUNKPATIN O K L, WELP G, et al. High resolution mapping of soil properties using remote sensing variables in south-western Burkina Faso: a comparison of machine learning and multiple linear regression models[J]. PLoS One, 2017, 12(1): e0170478. DOI:10.1371/journal.pone.0170478
[5]
POKHREL R M, KUWANO J, TACHIBANA S. A kriging method of interpolation used to map liquefaction potential over alluvial ground[J]. Engineering Geology, 2013, 152(1): 26-37. DOI:10.1016/j.enggeo.2012.10.003
[6]
DAI F Q, ZHOU Q G, LV Z, et al. Spatial prediction of soil organic matter content integrating artificial neural network and ordinary kriging in Tibetan Plateau[J]. Ecological Indicators, 2014, 45: 184-194. DOI:10.1016/j.ecolind.2014.04.003
[7]
徐尚平, 陶澍, 曹军. 内蒙古土壤pH值、粘粒和有机质含量的空间结构特征[J]. 土壤通报, 2001, 32(4): 145-148.
XU S P, TAO S, CAO J. Spatial structure pattern of soil pH, clay and organic matter contents in the Inner Mongolia area[J]. Chinese Journal of Soil Science, 2001, 32(4): 145-148. DOI:10.3321/j.issn:0564-3945.2001.04.001
[8]
LARK R M. Soil-landform relationships at within-field scales: an investigation using continuous classification[J]. Geoderma, 1999, 92(3/4): 141-165.
[9]
王茵茵, 齐雁冰, 陈洋, 等. 基于多分辨率遥感数据与随机森林算法的土壤有机质预测研究[J]. 土壤学报, 2016, 53(2): 342-354.
WANG Y Y, QI Y B, CHEN Y, et al. Prediction of soil organic matter based on multi-resolution remote sensing data and random forest algorithm[J]. Acta Pedologica Sinica, 2016, 53(2): 342-354.
[10]
丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1): 2-10.
DING S F, QI B J, TAN H Y. An overview on theory and algorithm of support vector machines[J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1): 2-10.
[11]
WIESMEIER M, BARTHOLD F, BLANK B, et al. Digital mapping of soil organic matter stocks using Random Forest modeling in a semi-arid steppe ecosystem[J]. Plant and Soil, 2011, 340(1/2): 7-24. DOI:10.1007/s11104-010-0425-z
[12]
SREENIVAS K, DADHWAL V K, KUMAR S, et al. Digital mapping of soil organic and inorganic carbon status in India[J]. Geoderma, 2016, 269: 160-173. DOI:10.1016/j.geoderma.2016.02.002
[13]
EMADI M, TAGHIZADEH-MEHRJARDI R, CHERATI A, et al. Predicting and mapping of soil organic carbon using machine learning algorithms in northern Iran[J]. Remote Sensing, 2020, 12(14): 2234. DOI:10.3390/rs12142234
[14]
WERE K, BUI D T, DICK Ø B, et al. A comparative assessment of support vector regression, artificial neural networks, and random forests for predicting and mapping soil organic carbon stocks across an Afromontane landscape[J]. Ecological Indicators, 2015, 52: 394-403. DOI:10.1016/j.ecolind.2014.12.028
[15]
SIEWERT M B. High-resolution digital mapping of soil organic carbon in permafrost terrain using machine learning: a case study in a sub-Arctic peatland environment[J]. Biogeosciences, 2018.
[16]
杨煜岑, 杨联安, 任丽, 等. 基于随机森林的农耕区土壤有机质空间分布预测[J]. 浙江农业学报, 2018, 30(7): 1211-1217.
YANG Y C, YANG L A, REN L, et al. Prediction for spatial distribution of soil organic matter based on random forest model in cultivated area[J]. Acta Agriculturae Zhejiangensis, 2018, 30(7): 1211-1217. DOI:10.3969/j.issn.1004-1524.2018.07.15
[17]
任丽, 杨联安, 王辉, 等. 基于随机森林的苹果区土壤有机质空间预测[J]. 干旱区资源与环境, 2018, 32(8): 141-146.
REN L, YANG L A, WANG H, et al. Spatial prediction of soil organic matter in apple region based on random forest[J]. Journal of Arid Land Resources and Environment, 2018, 32(8): 141-146.
[18]
JOHNSON R W. An introduction to the bootstrap[J]. Teaching Statistics, 2001, 23(2): 49-54. DOI:10.1111/1467-9639.00050
[19]
BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[20]
Boser B E. A training algorithm for optimal margin classifiers[J]. Proceedings of the Fifth Annual Workshop on Computational Learning Theory, 2008, 5: 144-152.
[21]
李永娜. 基于支持向量机的回归预测综述[J]. 信息通信, 2014, 27(11): 32-33.
LI Y N. A review of regression prediction based on support vector machines[J]. Information & Communications, 2014, 27(11): 32-33. DOI:10.3969/j.issn.1673-1131.2014.11.017
[22]
张偲敏, 汪艳, 郭天太, 等. 支持向量回归机的参数择优算法[J]. 中国科技信息, 2015(Z3): 26-27.
ZHANG S M, WANG Y, GUO T T, et al. Parameter selection algorithm of support vector regression machine[J]. China Science and Technology Information, 2015(Z3): 26-27.
[23]
马冉. 流域尺度土壤特性空间分布及影响因素研究——以三峡库区草堂河流域为例[D]. 重庆: 西南大学, 2019
MA R. Spatial distribution and influential factors of soil properties at A watershed scale—A case study on Caotang River Basin in the Three Gorges Reservoir Area[D]. Chongqing: Southwest University, 2019
[24]
GARCIA-PAUSAS J, CASALS P, CAMARERO L, et al. Soil organic carbon storage in mountain grasslands of the Pyrenees: effects of climate and topography[J]. Biogeochemistry, 2007, 82(3): 279-289. DOI:10.1007/s10533-007-9071-9
[25]
MZA B, SA A, AJ C, et al. Digital mapping of soil properties using multiple machine learning in a semi-arid region, central Iran[J]. Geoderma, 2019, 338: 445-452. DOI:10.1016/j.geoderma.2018.09.006
[26]
张厚喜, 林丛, 程浩, 等. 武夷山不同海拔梯度毛竹林土壤有机碳特征及影响因素[J]. 土壤, 2019, 51(4): 821-828.
ZHANG H X, LIN C, CHENG H, et al. Variation of soil organic carbon content of moso bamboo forest along altitudinal gradient in Wuyi Mountain in China[J]. Soils, 2019, 51(4): 821-828.
[27]
钟兆全. 闽北毛竹林土壤有机碳含量特征及其影响因素[J]. 福建林业科技, 2017, 44(2): 36-42.
ZHONG Z Q. Characteristics of soil organic carbon content and its influencing factors of Phyllostachys edulis forest in north of Fujian Province[J]. Journal of Fujian Forestry Science and Technology, 2017, 44(2): 36-42.
[28]
GUO P T, LI M F, LUO W, et al. Digital mapping of soil organic matter for rubber plantation at regional scale: an application of random forest plus residuals kriging approach[J]. Geoderma, 2015, 237/23: 49-59.
[29]
齐雁冰, 王茵茵, 陈洋, 等. 基于遥感与随机森林算法的陕西省土壤有机质空间预测[J]. 自然资源学报, 2017, 32(6): 1074-1086.
QI Y B, WANG Y Y, CHEN Y, et al. Soil organic matter prediction based on remote sensing data and random forest model in Shaanxi Province[J]. Journal of Natural Resources, 2017, 32(6): 1074-1086.
[30]
卢宏亮, 赵明松, 刘斌寅, 等. 基于随机森林模型的安徽省土壤属性空间分布预测[J]. 土壤, 2019, 51(3): 602-608.
LU H L, ZHAO M S, LIU B Y, et al. Spatial prediction of soil properties based on random forest model in Anhui Province[J]. Soils, 2019, 51(3): 602-608.
[31]
BARITZ R, SEUFERT G, MONTANARELLA L, et al. Carbon concentrations and stocks in forest soils of Europe[J]. Forest Ecology and Management, 2010, 260(3): 262-277. DOI:10.1016/j.foreco.2010.03.025
[32]
MEIER I C, LEUSCHNER C. Variation of soil and biomass carbon pools in beech forests across a precipitation gradient[J]. Global Change Biology, 2010, 16(3): 1035-1045. DOI:10.1111/j.1365-2486.2009.02074.x
[33]
WIESMEIER M, PRIETZEL J, BARTHOLD F, et al. Storage and drivers of organic carbon in forest soils of southeast Germany (Bavaria)—Implications for carbon sequestration[J]. Forest Ecology and Management, 2013, 295: 162-172. DOI:10.1016/j.foreco.2013.01.025
[34]
SHI Y, BAUMANN F, MA Y, et al. Organic and inorganic carbon in the topsoil of the Mongolian and Tibetan grasslands: pattern, control and implications[J]. Biogeosciences, 2012, 9(6): 2287-2299. DOI:10.5194/bg-9-2287-2012
[35]
杨帆, 徐洋, 崔勇, 等. 近30年中国农田耕层土壤有机质含量变化[J]. 土壤学报, 2017, 54(5): 1047-1056.
YANG F, XU Y, CUI Y, et al. Variation of soil organic matter content in croplands of China over the last three decades[J]. Acta Pedologica Sinica, 2017, 54(5): 1047-1056.
[36]
MCBRATNEY A B, ODEH I O A, BISHOP T F A, et al. An overview of pedometric techniques for use in soil survey[J]. Geoderma, 2000, 97(3/4): 293-327.
[37]
尹萍. 气候变化及人类活动对中国土壤有机碳储量的影响[J]. 农业与技术, 2012, 32(9): 190.
YIN P. Effects of climate change and human activities on soil organic carbon reserves in China[J]. Agriculture and Technology, 2012, 32(9): 190.
[38]
田慎重, 宁堂原, 王瑜, 等. 不同耕作方式和秸秆还田对麦田土壤有机碳含量的影响[J]. 应用生态学报, 2010, 21(2): 373-378.
TIAN S C, NING T Y, WANG Y, et al. Effects of different tillage methods and straw-returning on soil organic carbon content in a winter wheat field[J]. Chinese Journal of Applied Ecology, 2010, 21(2): 373-378.
[39]
BOU KHEIR R, GREVE M H, BØCHER P K, et al. Predictive mapping of soil organic carbon in wet cultivated lands using classification-tree based models: The case study of Denmark[J]. Journal of Environmental Management, 2010, 91(5): 1150-1160.
[40]
WALIA N K, KALRA P, MEHROTRA D. Prediction of carbon stock available in forest using naive Bayes approach[C]//2016 Second International Conference on Computational Intelligence & Communication Technology (CICT). Ghaziabad, India. IEEE, 2016: 275-279
[41]
LI Q Q, YUE T X, WANG C Q, et al. Spatially distributed modeling of soil organic matter across China: an application of artificial neural network approach[J]. CATENA, 2013, 104: 210-218.