Combining multi-indicators with machine-learning algorithms for maize
yield early prediction at the county-level in China
摘要
准确及时地预测大范围内的作物产量对于粮食安全和农业政策的制定非常重要。然而,目前还没有一种适应性强的方法来估计中国全境的玉米产量。产量的早期估计和产量预测的准确性之间固有的权衡也仍然是一个令人困惑的问题。为了探索这些挑战,我们采用GPP、ET、地表温度(Ts)、LAI、土壤性质和玉米物候信息等指标与随机森林回归(RFR)和梯度提升决策树(GBDT)机器学习方法来提供中国境内玉米产量估计。其目的是 (1)评估使用机器学习从多模态数据分析中获得的玉米产量预测的准确性;(2)确定估计产量的最佳时期;以及(3)确定拟议方法的空间稳健性和适应性。结果可以归纳为 (1)RFR比GBDT更准确地估计玉米产量;(2)Ts是估计产量的最佳单一指标,而当使用多指标时,GPP、Ts、ET和LAI的组合被证明是最好的(R2=0.77,rRMSE=16。 15%);(3)预测精度随着时间的提前而降低,但在成熟前至少24天内仍然相对较高(R2>0.77,rRMSE
目前利用遥感估计作物产量的方法可以分为两大类:将遥感数据整合或同化到作物生长模型(DA)中(Felix等,2013;Jin等,2018a;Jin等,2018b;Lu等,2021)以及利用遥感指标(RSI)间接估计产量(Blatchford等,2019;Weiss等,2019)。Jin 等(2018a)和 Huang 等(2019a)最近对基于 DA 的作物生长模型(如 WOFOST、AquaCrop、DASSAT 和 DAISY)进行了回顾,这些模型经常被用于估计作物产量。这些模型最初仅用于模拟点尺度的作物生长,但当与遥感数据结合时,逐渐被用于估计大面积的产量(Del′ecolle等,1992;Dong等,2016;Huang等,2019b;Silvestro等,2017)。Jin等人(2017a)使用AquaCrop和来自RADARSAT-2和HJ-1A/B的同化遥感数据来估计中国杨凌冬小麦的产量,结果显示与实测产量有良好的一致性(R2=0.42)。Chen和Tao(2020)利用MCWLA-Wheat(捕捉大面积作物与天气关系的模型)开发了空间同化和组合产品测量叶面积指数(LAI)的方法来估计华北平原中部的冬小麦产量,结果也表现良好。总的来说,DA方法正被广泛应用于各种作物和地表及环境条件,这在很大程度上是由于其稳健性和普遍性(Jin等人,2018a)。当然,作物模型的性能总是在一定程度上取决于输入参数的质量(如土壤性质、气象数据、作物栽培和管理方法)。这些参数的不确定性会对模拟过程产生负面影响,从而导致作物产量预测的较大误差(Jin等人,2018a;Tao等人,2017)。一般来说,在大面积地区,管理方法等参数不容易获得。
RSI方法使用几个遥感指标,如植被指数(VIs)、蒸散量(ET)(土壤蒸发和植物蒸腾的总耗水量)和总初级生产力(GPP)(总初级生产力是指单位时间内绿色植物通过光合作用途径所固定的有机碳量(又称总第一性生产力),GPP决定了进入陆地生态系统的初始物质和能量。),与产量建立关联(Anik′o等人,2018;Franz等人,2020;Wang等人,2020)。RSI方法由于其简单性和效率而被广泛使用。例如,Noland等人(2018年)利用卫星多光谱数据计算的几个VIs来间接估计苜蓿产量,发现它们能够解释81-90%的产量变化。Cao等人(2021年)将增强植被指数(EVI)与深度学习算法相结合,估计中国的冬小麦产量,并 告了良好的结果(R2 = 0.71)。RSI方法是通过拟合现场测量的产量和来自遥感数据的选定指标之间的关系产生的。这些关系通常是非线性的(Weiss等人,2019)。使用机器学习算法很适合处理非线性异方差问题,可用于高效的数据处理和数据挖掘(Holloway和Mengersen,2018;Jin等人,2017b)。机器学习算法,如支持向量回归(Maimaitijiang等,2020)、随机森林回归(Aghighi等,2018)和人工神经 络(Maimaitijiang等,2020),已经被广泛用于分析农业遥感数据,取得了良好的效果。例如,Maimaitijiang等人(2020年)使用无人驾驶飞行器(UAV)收集的多模态数据(冠层纹理和结构、光谱和温度)和机器学习算法来估计大豆产量,这为田间规模的产量估计提供了一种新方法。同样,Johansen等人(2020年)利用多光谱无人机数据和随机森林模型来预测番茄表型实验的产量和生物量。
除了主要的遥感指标(如VIs),一些高阶指标(如GPP或ET)也可以提供与植物功能的额外联系,从而对作物产量有更深入的了解。例如,Yuan等人(2016)开发了涡度协方差光利用效率模型,模拟全球每日植被GPP,用于计算产量。然而,由于碳分配和收获指数的不确定性,估计产量仍有较大误差。Sibley等人(2014)将吸收的光合有效辐射作为关键参数,并将其与光利用效率相结合,以估计美国内布拉斯加州的玉米产量。然而,由于模型参数的不确定性,偏差也仍然存在。尽管如此,高阶指标已经显示出强大的潜力,可以作为改善产量估计的预测变量,例子包括作物蒸发压力与产量的相关性(Yang等人,2018b)。一些相关研究说明了温度(Amir和Sinclair,1991)、GPP(Prince等人,2001)、LAI(Gilardelli等人,2019)和ET(Shakoor等人,2016)对作物产量的影响。确定在估计作物产量方面信息量最大的指标或指标组合,对遥感在农业中的应用具有重要意义。
研究区域
2001-2015年期间收集了892个县的记录产量数据,涵盖了玉米的主要种植区域(图1的绿色区域)(表1)。中国的玉米可分为春玉米和夏玉米,大约分别在4月和6月播种,8月和10月收割(Luo等人,2020)。由于气候和环境的原因,各地区的玉米物候期有所不同。
ps:1.吉林省产量数据可以去吉林省统计局查看《统计年鉴》吉林省统计局-统计年鉴 各省产量也可在这里查国家统计局
2.市级的产量数据可以去市统计局查看《市国民经济和 会发展统计公 》,eg:2020年长春市国民经济和 会发展统计公 延边朝鲜族自治州2021年国民经济和 会发展统计公 辽宁省和黑龙江省的市级产量数据直接查看省统计年鉴即可
3.县级的产量数据可以去县政府 站查询《县国民经济和 会发展统计公 》eg: 2020年镇赉县国民经济和 会发展统计公 县级如果很难找到,可以去上一级的市政府搜索
4.全球农业(谷物、油籽、棉布等)数据资源下载地址产量数据也可以参考这篇文章
遥感数据的获取
- 遥感数据包括:蒸散量(ET)、GPP、地表温度(Ts)、LAI和物候参数。
- 蒸散量(ET):MOD16A2
- GPP:MOD17A2
- 地表温度(Ts):MOD11A2,包含白天(Tsday)和夜间(Tsnight)的地表温度数据
- MOD15A2 LAI产品是使用三维辐射传输模型和查找表的方法生成的
- MOD11A2、MOD15A2、MOD16A2和MOD17A2都是分辨率为500米的8天复合产品,但在本研究中使用双线性方法汇总到1公里。
- 1公里分辨率的土壤属性数据(如土壤沙子、粘土和淤泥含量)来自中国科学院资源环境科学与数据中心(RESDC-CAS)。
- 耕地层也来自RESDC-CAS。
- 玉米的物候数据由Luo等人(2019)提供,他们使用基于最优滤波的物候检测和全球陆地卫星LAI产品(Xiao等人,2016)。该数据集包括玉米V3阶段(第三片叶子完全展开的阶段)的时间和成熟日期,分辨率为1公里。参考:中国三大粮食作物的物候数据集更新(2000-2019) – 知乎
- Luo, Y., Zhang, Z., Chen, Y., Li, Z. and Tao, F., 2019. ChinaCropPhen1km: a high-
resolution crop phenological dataset for three staple crops in China during 2000-
2015 based on LAI products.- Xiao, Z., Liang, S., Wang, J., Yang, X., Song, J., 2016. Long-time-series global land surface satellite leaf area index product derived from MODIS and AVHRR surface reflectance. IEEE Trans. Geosci. Remote Sens. 54 (9), 1–18.
本研究中使用的玉米测产数据记录为来自中国国家统计局的《中国农村统计年鉴》的县级普查产量。产量数据来自892个县(如图1),涵盖了2001年至2015年中国主要的玉米种植区(部分县的数据缺失数年)。根据以下标准确定并过滤了测量产量的异常值(1) 告的产量超出了生物物理可达到的产量范围(在本研究中,记录的产量低于1,000公斤/公顷或超过15,000公斤/公顷的产量被排除);(2) 告的产量高于/低于2001至2015年平均值的两个标准差;(3)玉米种植面积小于10,000公顷的县被排除(Cao等人,2021;Chen等人,2018;张等人,2014)。经过这个过滤过程,共有1981个记录的产量可供分析。
图1. 本研究中使用的研究区、县和有记录产量的县的位置。注:DEM表示数字高程模型
研究方法
RFR和GBDT+五折交叉验证,使用单向方差分析(ANOVA)(P=0.01)来测试两种算法的性能是否存在显著差异。采用SPSS软件(版本21,IBM Corp.,Armonk,US)进行方差分析测试。
估产的最佳时期:为了确定收益率早期预测的最佳提前期(定义为在准确度与成熟度相比没有显著变化的前提下,提前期应尽可能早),将不同时期指标的累积值或平均值分别用作模型输入(图3)
图3 确定最佳提前期流程的流程图
准确性验证:均方根误差(RMSE)、相对均方根偏差(rRMSE)和调整后的确定系数(R2)
空间分析:考虑到作物产量的异质性和依赖性可能在空间上有所变化,采用了全局Moran’s I来检查用于估计产量模型的预测误差的空间自相关性
实验结果:
1.回归方法在玉米产量预测中的应用
GBDT和RFR在四个指标(Ts+GPP+ET+LAI)的组合输入下表现最佳,RFR算法的R2=0.77和rRMSE=16.15%,GBDT算法的R2=0.71和rRMSE=21.78%。
2.指标对玉米产量预测的贡献
图6.投入指标与产量之间的相关矩阵。注:*表示达到显著水平(P
图7.RFR中每个变量输入对玉米产量估计的重要性。
3.玉米产量预测在不同生育阶段的表现
在到期前24天内,准确度通常处于较高水平(R2>0.77,rRMSE29.36%到期前。
图9.使用RFR算法和ET、GPP、LAI和Ts的组合输入估计不同提前期玉米产量的性能。注:本图中的指标(rRMSE和R2)是基于五折交叉验证的结果计算的。
4.产量估计的空间模式
使用Moran’s I对县级预测误差进行了调查,研究了模型在应对空间异质性和种植模式(如作物品种、灌溉计划、种植密度和施肥习惯)或区域环境引起的变化方面的适应性。从图10来看,两种算法(GBDT和RFR)之间的差异没有达到显著水平(P
误差一般呈正态分布,大多数县的误差小于1000公斤/公顷(图11)。在单一指标的情况下,Ts产生最低的Moran’s I为0.20。
图 10 比较不同模型的 Moran’s I 的箱线图:(a)使用的不同算法(b)不同的预测时间和(c)不同的指标输入。注:柱上不同字母(a、b、c、d、e、f)表示差异显着。
图 11 所有指标(ET+GPP+LAI+Ts)组合输入条件下预测误差分布,使用RFR建模,预测时间为成熟前8天:(a)无位置信息的数值分布和(b)空间分布分配。
讨论
1.GBDT的学习过程能够提高模型的普适性,但容易受到异常样本的影响,在多变量和有限的样本中表现不佳,因此,在本研究中,RFR可能更适合于估计产量。深度神经 络算法(DNN)也被广泛用于回归问题,在本研究中,千级样本可能无法满足DNN的需求。
2.各项指标在预测玉米产量方面的贡献
(2)温度的相对指标,如有效积温(EAT)和生长度日(GDD)在描述作物生长状况和估计作物产量方面通常表现良好,在本研究中,当使用单一指标时,累积Ts可被视为没有阈值过滤的EAT,在估计玉米产量方面表现最好。
3.估计产量的最佳时期
在此,我们确定了最佳提前期为成熟前24天(R2=0.78,rRMSE=16.92%),这大约是在乳熟期结束或蜡熟期开始时,此时玉米已经积累了大部分干重,并且玉米生长通常较少受到环境胁迫的影响。
ps:
水稻成熟一般需要经过成熟期包括乳熟期、蜡熟期、完熟期和枯树期。
1、乳熟期:水稻开花后3~5天即开始灌浆。灌浆后籽粒内容物呈白色乳浆状,淀粉不断积累,干、鲜重持续增加,在乳熟始期,鲜重迅速增加,在乳熟中期,鲜重达最大,米粒逐渐变硬变白,背部仍为绿色。该期手压穗中部有硬物感觉,持续时间为7~10天左右。
2、蜡熟期:该期籽粒内容物浓黏,无乳状物出现,手压穗中部籽粒有坚硬感,鲜重开始下降,干重接近最大。米粒背部绿色逐渐消失,谷壳稍微变黄。此期约经历7~9天。
3、完熟期:谷壳变黄,米粒水分减少,干物重达定值,籽粒变硬,不易破碎。此期是收获时期。
4、枯树期:谷壳黄色退淡,枝梗干枯,顶端枝梗易折断,米粒偶尔有横断痕迹,影响米质。
应注意的是,本研究未考虑意外灾害,如极端气候和疾病,如果发生在预测时间之后,则会显著影响准确性。因此,极端气候和疾病早期预测的发展将进一步提高产量预测研究的模型精度。
4.产量估计的空间模式
模型的变量输入越多,这可能导致模型获得更多的空间信息。因此,联合使用多个生理指标将提高模型的空间适应性和准确性。
结论
- RFR算法往往比GBDT算法更准确,Ts是单一指标分析的最佳预测器,而GPP、ET、Ts和LAI的组合表现最好。
- 较早的估产时间一般会降低产量估计的准确性,但在玉米成熟前至少24天内,产量估计仍然相对较好。
- 最后,使用机器学习算法和多种指标来估计产量具有很强的空间适应性,允许由于不同的种植模式或区域环境而产生空间异质性。
未来的调查可以探索监测极端气候和害虫对预测潜力的影响的能力,额外的(和改进的)遥感产品(例如,不同的蒸散量或GPP数据的获取)的影响,以及其他机器学习算法的能力,以推进本研究的结论。
参考:结合多指标和机器学习的我国县域尺度玉米产量早期估算 – 知乎
文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34531 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!