Crop Yield Prediction con architettura LSTM autoencoder su serie storiche di clima e caratteristiche colturali

Crop Yield Prediction con architettura LSTM autoencoder su serie storiche di clima e caratteristiche colturali

In questo lavoro presentiamo un modello di previsione delle rese colturali che integra in modo esplicito informazioni meteorologiche osservate su più anni. Il modello combina le caratteristiche colturali dell’anno corrente (ad esempio superficie coltivata, percentuale e classe di irrigazione, specie coltivata) con le sequenze storiche di resa, dati agronomici e variabili meteo degli anni precedenti, per stimare la resa dell’anno in corso.

L’obiettivo è misurare e quantificare l’effetto dei cambiamenti climatici, codificati nelle serie temporali meteorologiche, sulla produzione di specie chiave come grano duro, grano tenero, soia, mais ibrido, uva da vino comune e uva da vino di qualità. In combinazione con un modello climatico in grado di simulare scenari futuri, questo strumento consente di valutare in anticipo l’impatto di possibili evoluzioni del clima sulle rese agricole.

Il lavoro è stato condotto in collaborazione con l’Università degli Studi di Padova e l’Università degli Studi della Tuscia

Il Dataset

Il dataset di input raccoglie dati di resa delle aziende agricole, aggregati per regioni agrarie, in un contesto in cui il numero di aziende monitorate per ogni regione varia nel tempo. Questa natura dinamica ha reso necessario un lavoro accurato di analisi, filtraggio e preprocessamento per assicurare coerenza e qualità alle informazioni utilizzate dal modello.

A partire dai dati grezzi sono state costruite serie temporali che, per ciascuna combinazione regione–specie colturale, integrano rese storiche, caratteristiche agronomiche (ad esempio superfici coltivate e indicatori di irrigazione) e variabili meteorologiche mensili su 12 mesi per anno.

Queste serie sono servite per definire training set e test set, sui quali il modello è stato addestrato e validato tramite l’analisi dei residui di regressione.

La Metodologia

Per modellare serie temporali e feature strutturali è stato progettato un modello basato su LSTM, organizzato come autoencoder per la componente sequenziale e come regressore fully connected per la resa.

L’architettura prevede:

C_seq: sequenze di anni precedenti, che includono per ciascun timestep (anno) le variabili meteo mensili (12 mesi), la resa e le principali caratteristiche agricole (es. superficie coltivata, percentuale media di irrigazione).
C_quant: tutte le feature numeriche relative all’anno corrente di cui si vuole prevedere la resa, comprese le 12 variabili meteo mensili, la somma delle superfici coltivate e la percentuale media di irrigazione.
C_cat: le feature categoriali, come la classe di irrigazione e la specie coltivata.

Le feature numeriche (C_seq e C_quant) sono normalizzate tramite specifici strati di Normalization adattati sul training set. La parte LSTM autoencoder apprende una rappresentazione latente L delle serie temporali C_seq, mentre uno stack di layer fully connected con attivazione ReLU e dropout utilizza L, le feature numeriche normalizzate e le feature categoriali concatenate per regredire la resa dell’anno corrente.

Il modello produce due output:

C_seq’: la ricostruzione della sequenza di input C_seq da parte dell’autoencoder LSTM;
Y: il valore di resa previsto.

Per entrambi gli output viene utilizzata la Mean Squared Error (MSE) come funzione di loss, consentendo un addestramento congiunto di autoencoder e regressore.

Gli Esperimenti

Gli esperimenti sono stati organizzati a partire dalla costruzione delle serie storiche e dalla definizione dei set di addestramento e test, tenendo conto della variabilità nel numero di aziende per regione e nel loro ingresso/uscita dal monitoraggio. Dopo la fase di preprocessamento e aggregazione, il modello LSTM‑based è stato addestrato su un training set e valutato su un validation/test set separato, monitorando l’andamento delle metriche MSE e MAE sia per la parte di autoencoder sia per il regressore di resa.

Le curve di training l’evoluzione di MSE e MAE nel tempo di addestramento, permettendo di controllare la stabilità del modello e la corretta generalizzazione sulle serie temporali delle diverse specie.

Particolare attenzione è stata posta all’analisi dei residui di regressione per specie, per verificare eventuali bias sistematici e differenze di performance tra colture.

I Risultati

Il modello ottenuto non evidenzia fenomeni di overfitting, come indicato dalle storie di addestramento che mostrano andamenti coerenti delle metriche MSE e MAE tra training set e validation set, sia per l’autoencoder sia per il regressore. La tabella dei residui medi e delle varianze per specie mostra valori molto contenuti, segnalando una buona capacità di previsione delle rese per grano tenero, grano duro, soia, mais ibrido, uva da vino comune e uva da vino di qualità.

Le visualizzazioni “Actual vs Predicted” evidenziano una buona aderenza tra rese osservate e rese stimate e suggeriscono che la disposizione dei punti sia influenzata dalla specie coltivata, confermando che il modello tiene conto delle specificità produttive di ciascuna coltura.