Strumenti predittivi per le rese colturali con approcci econometrici e machine learning

Strumenti predittivi per le rese colturali con approcci econometrici e machine learning

In questo lavoro è stata sviluppata una metodologia basata su machine learning per stimare la resa agricola attesa e valutare l’impatto economico degli eventi meteorologici estremi sulle aziende agricole.

I modelli predittivi sviluppati combinano tre dimensioni principali:

Caratteristiche strutturali ed economiche dell’azienda,
Pratiche di impianto e gestione colturale,
Condizioni climatiche lungo il ciclo produttivo.

Il lavoro è stato condotto in collaborazione con l’Università degli Studi di Padova e l’Università degli Studi della Tuscia

Il Dataset

La base dati integra informazioni economico‑strutturali aziendali con indicatori climatici e meteorologici su un orizzonte temporale 2008–2022.
Le principali componenti sono:

Dati FADN (2008–2022): descrivono produttività e caratteristiche delle aziende (coltura, regione/area agraria, dimensione).
- Variabili quantitative (C_quant): superficie coltivata e irrigata, ore di lavoro del personale e delle macchine, uso dell’acqua per superficie e per ettaro, numero medio di giorni di irrigazione.
- Variabili qualitative (C_cat): specie coltivata, metodo di coltivazione, successione colturale, presenza di colture in consociazione.
Dati climatici e indicatori di eventi estremi (C_seq): serie temporali giornaliere, mensili e annuali di evapotraspirazione, precipitazioni, temperature massime e minime, successivamente armonizzate a risoluzione giornaliera e allineate alle singole colture.

Lo studio si concentra su sei colture rappresentative: grano duro, grano tenero, mais ibrido, soia, vite per vino di qualità e vite per vino comune.

La variabile target è lo Yield Index (Y_class), definito come rapporto tra quantità raccolta e superficie coltivata, che fornisce una misura normalizzata della produttività confrontabile tra colture, regioni e dimensioni aziendali.

La Metodologia

L’obiettivo metodologico è progettare modelli di deep learning capaci di prevedere la resa attesa e di cogliere l’effetto degli eventi climatici estremi, combinando informazioni strutturali, gestionali e climatiche. L’approccio integra:

Reti neurali come predittori: modelli multilayer in grado di apprendere relazioni non lineari tra numerose variabili esplicative e la resa agricola.
Autoencoder per le serie climatiche: reti neurali che comprimono le sequenze meteo (C_seq) in rappresentazioni compatte (embedding), riducendo il rumore e mettendo in evidenza pattern associati a condizioni regolari o eventi estremi.

La pipeline prevede l’estrazione degli embedding climatici tramite autoencoder e la loro integrazione con le variabili strutturali ed economiche nel modello predittivo della resa. Sono esplorate due direzioni di output:

Classificazione dell’indice di resa in fasce (bassa, media, alta).
Regressione del valore continuo dello Yield Index

Gli Esperimenti

La campagna sperimentale valuta differenti configurazioni di dati, architetture e strategie di modellazione.

Configurazioni di dataset:

Serie meteorologiche mensili combinate con variabili categoriali e quantitative aziendali.
Serie meteorologiche giornaliere arricchite da informazioni sui volumi irrigui e sull’uso dell’acqua.

Architetture testate:

Modelli basati su autoencoder per codificare le sequenze meteo nel tempo.
Modelli di regressione addestrati su sequenze “appiattite” senza autoencoding.
Architetture che includono feedback di gradiente dal decoder verso l’encoder.
Confronto tra autoencoder LSTM e encoder di tipo Transformer per la gestione delle serie temporali.

Dai primi esperimenti emerge che i modelli addestrati su sequenze mensili presentano maggiore instabilità e residui elevati, soprattutto per colture con meno osservazioni (es. mais e soia). L’uso di sequenze giornaliere, assieme a encoder avanzati e al filtraggio dei valori estremi di resa, migliora in modo significativo stabilità e accuratezza delle previsioni.

I Risultati

La fase finale introduce Conditional Variational Autoencoders (CVAE) che integrano dati meteo giornalieri, indicatori di uso dell’acqua, pratiche colturali e informazioni geografiche.

Sono valutate quattro strategie:

M1 – Classificazione per specie: modelli dedicati a ciascuna coltura per assegnare lo Yield Index a classi di resa.
M2 – Regressione multi-specie con CVAE: un unico modello per stimare valori continui di resa su tutte le colture.
M3 – Classificazione multi-specie con CVAE: modello condiviso che classifica le rese di diverse colture nelle tre fasce.
M4 – Classificazione multi-specie con contesto geografico: estensione di M3 con codifica esplicita dell’informazione territoriale.

I risultati mostrano che i modelli di classificazione distinguono efficacemente tre livelli di resa (bassa, media, alta), mentre la regressione CVAE fornisce previsioni continue stabili dell’indice di resa. L’inclusione della componente geografica nel modello M4 incrementa ulteriormente l’accuratezza e la robustezza, rendendolo l’approccio più performante fra quelli analizzati.