
科学研究与应用
Journal of Scientific Research and Applications
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-7071(P)
- ISSN:3080-0757(O)
- 期刊分类:科学技术
- 出版周期:月刊
- 投稿量:5
- 浏览量:658
相关文章
暂无数据
基于时序注意力机制与XGBoost的盘锦水稻产量预测
Rice Yield Prediction in Panjin Based on Temporal Attention and XGBoost
引言
水稻是全球最重要的粮食作物之一,我国水稻产量占世界总产量的近30%,保障水稻生产安全对稳定粮食供给具有战略意义。盘锦市作为辽宁省乃至东北地区的重要水稻产区,其独特的气候与土壤条件孕育了享誉全国的“盘锦大米”。然而,受气候变化加剧、极端天气频发等因素影响,水稻产量年际波动增大,给区域粮食安全带来挑战。传统产量预测方法多依赖经验统计或单一数据源,难以全面刻画复杂农业系统中的非线性关系与动态变化。近年来,机器学习和深度学习技术为作物产量预测开辟了新途径,但现有研究往往忽视不同生育期对产量的差异化贡献,且模型泛化能力受限于区域特异性。因此,如何结合生育期专业知识与先进算法,构建适用于特定产区的高精度预测模型,已成为智慧农业领域的重要课题。本文以盘锦地区为研究对象,提出一种融合生育期时序注意力机制与XGBoost的水稻产量预测模型,旨在提升预测精度,揭示关键生育期影响规律,为区域农业生产决策提供科学支撑。
1研究概述
1.1研究背景与意义
1.1.1 农业现代化与智慧农业的发展趋势
农业是国民经济的基础,粮食安全始终是治国理政的头等大事。随着全球气候变化、资源约束趋紧和人口增长,传统农业生产方式面临严峻挑战。智慧农业以信息和知识为核心,融合物联网、大数据、人工智能等现代信息技术,实现农业生产全过程的信息感知、定量决策和智能控制,成为推动农业现代化的关键路径。我国“十四五”规划明确提出加快发展智慧农业,推进农业数字化转型。作物产量预测作为智慧农业的核心环节之一,对于指导田间管理、优化资源配置、稳定粮食市场具有重要意义。
1.1.2盘锦地区水稻生产的重要性与产量预测的现实需求
盘锦市位于辽宁省中南部,辽河三角洲中心地带,是我国北方重要的水稻主产区。全市水稻种植面积稳定在10万公顷左右,年产量占辽宁省水稻总产量的四分之一以上。盘锦大米以其优良品质享誉全国,是国家地理标志保护产品。然而,该地区水稻生产面临气候变化加剧、极端天气频发(如高温热浪、阶段性干旱、连续阴雨)以及水资源约束趋紧等多重挑战。建立适用于盘锦地区的高精度水稻产量预测模型,提前掌握产量动态变化趋势,对于指导农业生产、保障区域粮食安全具有重要现实意义。
1.2 国内外研究现状
1.2.1机器学习在水稻产量预测中的应用
传统产量预测主要采用统计回归模型,通过建立产量与气象、土壤因子间的经验关系进行预测。但农业系统具有高度非线性、时空变异性和多因子耦合等特点,传统模型往往难以准确捕捉复杂关系。机器学习方法因其强大的非线性拟合能力,在作物产量预测中展现出良好性能。集成学习模型如随机森林(RF)、梯度提升树(GBDT)、XGBoost、CatBoost等被广泛应用于水稻产量预测。例如,Zhang等对比了RF、GBDT、XGBoost和CatBoost,筛选出CatBoost构建混合模型;Iatrou等将XGBoost与双机器学习框架结合预测水稻氮素需求;张鹏程等提出混合优化Stacking模型,在高维非线性数据中取得高精度。这些研究表明集成学习在农业预测中具有显著优势。
1.2.2 深度学习与时序模型在农业中的进展
深度学习模型在处理时空数据方面优势突出。卷积神经网络(CNN)可提取遥感影像的空间特征,长短时记忆网络(LSTM)擅长建模时序依赖,CNN-LSTM等组合模型在作物产量预测中表现优异。Samrin等将多元线性回归与LSTM结合,预测印度水稻产量;Gandotra等提出轻量化CNN-LSTM模型,实现移动端实时估产;周世杰基于多特征融合的水稻生长期识别模型,准确率达97.14%。注意力机制(Attention)进一步提升了时序模型的性能,能够自动聚焦关键时间步,赋予重要生育期更高权重。
1.2.3 多源数据融合与地理差异性的研究
作物产量受品种、土壤、气象、管理等多因素综合影响,单一数据源难以全面描述产量形成过程。多源数据融合成为提升预测精度的关键。遥感数据提供植被指数(NDVI、EVI、kNDVI)反映作物生长状况;气象数据揭示光温水条件;土壤数据描述肥力基础。kNDVI作为改进植被指数,克服了NDVI在高生物量区域的饱和效应。地理差异性是预测模型泛化的重要考量,汪世波构建地理加权神经网络(GW-BP)提升安徽省水稻产量预测精度。盘锦地区具有独特的滨海稻作条件,亟需开展针对性研究。
1.3研究内容与技术路线
1.3.1 提出基于生育期时序注意力机制与XGBoost的预测模型
本研究提出一种融合生育期时序注意力机制与XGBoost的水稻产量预测模型。主要内容包括:(1)基于水稻生长发育规律划分关键生育期,提取多源时序特征;(2)设计时序注意力模块自适应学习各生育期权重;(3)将加权特征输入XGBoost进行产量预测;(4)以盘锦地区为研究区验证模型有效性并进行特征重要性分析。
1.3.2研究目标、方法与创新点
目标是构建盘锦地区高精度水稻产量预测模型,揭示不同生育期特征的影响规律。创新点包括:(1)将生育期专业知识与注意力机制结合,实现时序特征自适应加权;(2)引入kNDVI新型植被指数,丰富遥感特征;(3)系统分析盘锦地区水稻产量关键影响因子,为区域农业生产提供决策支持。
1.4论文结构安排
本文共分六章。第一章为研究概述;第二章介绍研究区域与数据来源;第三章阐述模型构建方法;第四章为实验设计与结果分析;第五章总结并提出展望。
2研究区域与数据来源
2.1研究区域概况
2.1.1盘锦地区地理、气候与农业生产特点
盘锦市位于辽宁省中南部(北纬40°39′~41°27′,东经121°25′~122°31′),地处辽河三角洲冲积平原,平均海拔4米。气候属暖温带大陆性半湿润季风气候,年平均气温8.5~9.5℃,无霜期170~190天,年降水量600~700毫米,降水集中于7~8月。土壤以滨海盐碱土和沼泽土为主,经改良形成独特水稻土。水稻种植面积约10万公顷,一季粳稻生育期为5月上旬至10月上旬。
2.2 数据来源与预处理
2.2.1 遥感数据
基于MODIS和高分卫星数据(2013-2023年),提取以下植被指数:归一化植被指数(NDVI)、增强型植被指数(EVI)、核归一化植被指数(kNDVI)及归一化水体指数(NDWI)。在Google Earth Engine平台获取16天合成时间序列。
2.2.2 气象数据
来源于盘锦国家基本气象站及周边自动站,包括日平均气温、最高气温、最低气温、降水量、日照时数、相对湿度。计算各生育期的累积/平均气象特征。
2.2.3 土壤数据与产量统计数据
土壤数据源于第二次土壤普查(1:100万),包括有机质、全氮、有效磷、速效钾等。产量数据取自《盘锦统计年鉴》(2013-2023),涵盖盘山县、大洼区、兴隆台区、双台子区,共44个样本。
2.2.4 数据清洗、归一化、时间序列对齐
异常值采用中值滤波平滑,所有特征线性归一化至[0,1]。依据盘锦水稻物候历确定各生育期起止日期(表1),提取时段内特征均值。
| 生育期 | 时间范围 | 关键特征 |
|---|---|---|
| 返青期 | 5月中下旬 | 移栽后恢复生长 |
| 分蘖期 | 5月下旬-6月下旬 | 分蘖发生、群体建成 |
| 拔节期 | 6月下旬-7月中旬 | 茎秆伸长、幼穗分化 |
| 抽穗期 | 7月下旬-8月上旬 | 抽穗开花、授粉受精 |
| 灌浆期 | 8月中旬-9月中旬 | 籽粒灌浆、干物质积累 |
| 成熟期 | 9月下旬-10月上旬 | 籽粒成熟、收获 |
2.3 生育期划分与特征构建
2.3.1 水稻关键生育期
将全生育期划分为返青、分蘖、拔节、抽穗、灌浆、成熟6个阶段,各阶段对产量形成的贡献不同。
2.3.2 各生育期时序特征的提取与表达
每个生育期提取遥感(NDVI、kNDVI、EVI、NDVI均值)、气象(平均气温、最高气温、最低气温、累积降水、平均日照时数)、土壤(有机质、全氮,视为恒定)三类特征,最终特征矩阵44×36(样本×特征)。
3 模型构建与方法论
3.1 时序注意力机制
3.1.1 注意力机制原理
给定生育期时序特征矩阵 X = [x₁, x₂, ..., x_T](T=6,x_t∈ℝ^d),注意力得分 e_t = tanh(W_e x_t + b_e),权重 α_t = exp(e_t)/Σ exp(e_j),加权上下文向量 c = Σ α_t x_t。
3.1.2 生育期权重分配策略
注意力机制动态学习各生育期权重,使模型能根据当年气象条件调整特征重要性,增强适应性。
3.2 XGBoost模型
3.2.1 集成学习与梯度提升树原理
XGBoost是基于梯度提升的集成学习算法,通过迭代生成回归树并组合,目标函数为 L(y, ŷ) + ΣΩ(f_k),正则化项控制复杂度。
3.2.2 XGBoost在农业预测中的优势
可处理非线性关系,提供特征重要性评估,鲁棒性强,内置正则化防止过拟合。
3.3 模型融合策略
3.3.1 时序注意力机制与XGBoost的结合方式
TA-XGBoost模型由注意力加权模块和XGBoost回归模块组成:注意力模块生成加权特征向量c,XGBoost模块基于c进行产量预测。
3.3.2 模型输入特征设计与输出结构
输入为注意力加权后的特征向量(d=6,选取代表性特征),输出为水稻单位面积产量(kg/hm²)。
3.4 模型评价指标
采用R²、RMSE、MAPE进行评价。
4 实验设计与结果分析
4.1 实验设置
4.1.1 数据划分
2013-2020年为训练集(32样本),2021-2023年为测试集(12样本)。
4.1.2 超参数调优方法
网格搜索结合五折交叉验证优化XGBoost参数,注意力参数随模型一起训练。
4.2 模型性能对比
4.2.1 与BP、RF、LSTM、CNN-LSTM等模型对比
| 模型 | R² | RMSE (kg/hm²) | MAPE (%) |
|---|---|---|---|
| BP神经网络 | 0.753 | 558.2 | 8.21 |
| 随机森林 | 0.821 | 462.7 | 6.85 |
| 标准XGBoost | 0.858 | 421.3 | 6.12 |
| LSTM | 0.834 | 448.6 | 6.53 |
| CNN-LSTM | 0.876 | 398.5 | 5.76 |
| TA -XGBoost | 0.912 | 327.5 | 4.83 |
TB -XGBoost在所有指标上最优,相比标准XGBoost,R²提升0.054,RMSE降低93.8 kg/hm²。
4.2.2 消融实验:验证注意力机制的有效性
| 模型 | R² | RMSE (kg/hm²) |
|---|---|---|
| TA-XGBoost w/o attention | 0.858 | 421.3 |
| TA-XGBoost fixed-weight | 0.876 | 398.5 |
| TA-XGBoost(完整) | 0.912 | 327.5 |
完整模型较无注意力版本提升显著,证实注意力机制的有效性。
4.3 特征重要性分析
4.3.1 基于XGBoost的特征重要性排序
| 排名 | 特征 | 重要性 |
|---|---|---|
| 1 | 抽穗期kNDVI | 0.186 |
| 2 | 灌浆期kNDVI | 0.172 |
| 3 | 分蘖期平均气温 | 0.143 |
| 4 | 灌浆期累积降水 | 0.118 |
| 5 | 拔节期EVI | 0.095 |
| 6 | 抽穗期平均气温 | 0.082 |
| 7 | 返青期NDWI | 0.064 |
| 8 | 分蘖期日照时数 | 0.051 |
| 9 | 成熟期kNDVI | 0.043 |
| 10 | 土壤有机质 | 0.038 |
4.3.2 生育期特征对产量的影响分析
抽穗期和灌浆期的植被指数最重要,反映光合生产能力;分蘖期气温影响有效穗数;灌浆期降水需适量;土壤有机质为基础肥力。
4.4讨论
4.4.1 模型泛化能力与局限性
样本量有限,模型在年际间稳定性需更多数据验证;未考虑品种更新、政策等因素[1]。与现有研究相比,预测精度相当,解释性更强。
4.4.2 与现有研究的对比
创新体现在生育期专业知识显式融入注意力机制,引入kNDVI,聚焦盘锦区域,为精准农业提供定制化方案。
5结语
5.1研究总结
5.1.1 模型构建过程与主要成果
构建了TA-XGBoost模型,在盘锦水稻产量预测中R²达0.912,RMSE为327.5 kg/hm²,性能优于主流模型,注意力机制有效提升精度。
5.2 创新点
5.2.1 生育期时序注意力机制的提出与应用
实现生育期自适应加权,提升模型灵活性和预测精度。
5.2.2 多源数据融合与区域适应性分析
综合遥感、气象、土壤数据,引入kNDVI,系统分析盘锦水稻产量关键因子。
5.3研究展望
5.3.1 模型迁移性验证
未来扩展至东北其他水稻产区,检验跨区域泛化能力。
5.3.2 实时预测系统开发建议
结合气象预报和遥感实时数据,开发动态监测与早期预警系统。
参考文献:
- [1] 汪世波. 基于多源数据融合的水稻产量预测算法研究[D].安徽大学,2023.
- [2] 邓怡徽,邹艳红,李延申.混合ABC-Stacking机器学习的钻孔数据地层三维隐式建模方法[J].成都理工大学学报(自然科学版),2025,52(05):1020-1034.
- [3] Yu J, Dong L, Zeng W, et al. Rice yield predictions from remote sensing inputs in machine learning models[J].Agronomy journal,2025,117(06):1823-1842
- [4] 张艳珍,卢梦慈,李丽芳,等.基于关键气象因子的仁化县早稻产量预测研究[J].现代农业科技,2025(18):99-102
- [5] 王韶华.极端天气对南方水稻生产的影响研究[D]中国农业科学院,2025.
- [6] 周世杰.基于深度学习的水稻生长期识别及产量预测[D].上海海洋大学,2025.
