Cefriel, centro di innovazione digitale fondato dal Politecnico di Milano, ha avviato con Sacco System – polo biotech di eccellenza internazionale nell’ambito delle industrie alimentari, nutraceutiche e farmaceutiche – un progetto per l’ottimizzazione del processo di produzione di probiotici incentrato su analisi dei dati e algoritmi di machine learning.
Lo scopo della partnership fra Cefriel e Sacco System
La collaborazione tra Sacco System e Cefriel nasce dalla necessità da parte dell’azienda di produzione di probiotici di comprendere come aumentare la consapevolezza rispetto all’efficienza del proprio processo di produzione per renderne prevedibile la qualità e la resa finale. Nella prima fase del progetto si è realizzata una analisi di fattibilità e impatto attraverso la quale è stata indagata la possibilità di comprendere la variabilità della qualità finale del prodotto attraverso i dati disponibili (circa 24 milioni di righe di dati) e l’impatto dei parametri e delle variabili sulla qualità. In questa fase si è realizzato anche un modello preliminare in grado di stimare la qualità del processo sulla base dei dati raccolti. Dopo questa prima fase, il prossimo step sarebbe il raffinamento di questo modello e l’individuazione della miglior configurazione di parametri e variabili del processo di produzione per aumentarne la qualità.
Il percorso di ottimizzazione produttiva è iniziato con una prima attività di raccolta e analisi di informazioni sull’attuale processo di produzione e una razionalizzazione dei bisogni e delle domande di business a cui dare risposta.
Il progetto
Nel perimetro del progetto sono stati analizzati dati storici di 400 lotti di produzione relativi a 2 prodotti, raccolti durante 7 anni. Inizialmente sono stati presi in considerazione centinaia di parametri e variabili che fanno parte del processo produttivo. Data la numerosità dei dati disponibili, si è reso necessario affiancare alla competenza di dominio di Cefriel, la conoscenza di dominio di Sacco System. Questo ha permesso di eliminare i parametri e variabili meno significativi e attuare una fase di feature engineering volta a creare nuovi parametri e variabili più sintetici e rilevanti all’interno del processo. In questa fase è stato anche analizzato il contenuto semantico dei parametri e variabili e uniformata dove necessario la nomenclatura utilizzata.
Dopo la fase di feature engineering e preparazione del dataset complessivo da analizzare, sono stati progettati e sperimentati tre tipologie di modelli statistici e di machine learning che avevano come obiettivo quello di identificare le dipendenze tra le variabili del processo produttivo e la sua resa finale:
- Regressione lineare, un modello statistico classico che permette di trovare una relazione lineare tra una o più proprietà (i parametri e variabili del processo produttivo) ed una variabile target (la resa finale).
- Random Forest e Tree Bag sono invece algoritmi di machine learning supervisionato che combinano l’output di più alberi decisionali per arrivare a un singolo risultato. Mentre un albero decisionale crea regole che poi usa per prendere decisioni, questi algoritmi costruiscono un insieme di alberi decisionali e poi fanno la media dei risultati. Visto che si basano su un gran numero di alberi non correlati, Random Forest e Tree Bag tendono a creare previsioni più accurate di un singolo albero decisionale.
La differenza tra i due è che Tree Bag addestra ogni albero usando sottoinsiemi di osservazioni diverse, mentre Random Forest li addestra usando anche sottoinsiemi di feature diverse.
L’analisi dei dati
Grazie all’analisi dei dati è stato possibile spiegare fino al 50% della variabilità del processo di produzione. Visto che nessuno dei modelli si è dimostrato nettamente più accurato rispetto agli altri, per identificare e prioritizzare i principali parametri e variabili che spiegano la variabilità della resa, sono stati presi in considerazioni i risultati da tutti e tre i modelli attraverso un processo di ranking.
Il meccanismo di ranking ha considerato sia l’ordine d’importanza dato ai parametri e variabili da un certo modello, sia il fatto di essere stati selezionati da più modelli. Così sono state identificate le 28 variabili che creano più variabilità sulla resa finale.
Infine, per individuare il tipo d’impatto di queste variabili sulla resa finale è stato analizzato il comportamento di esse nei lotti di produzione migliori e peggiori. Così facendo è stato possibile individuare 15 variabili che presentavano un comportamento nettamente diverso (in termini di valori e/o di trend) tra i lotti migliori e peggiori.
Questi insight hanno abilitato la definizione di azioni di miglioramento della qualità del processo attraverso la moderazione di queste specifiche variabili.
Cefriel e Sacco System, un progetto per predire la qualità del processo produttivo
“Il progetto con Cefriel – afferma Simone Passolunghi, Director of Corporate Operations di Sacco System – ci ha permesso di comprendere quanto sia importante la fase di raccolta dei dati e quanto debbano essere idonei e omogenei per poterli organizzare e studiare per garantire un miglioramento continuo del processo e soprattutto un incremento costante della resa dei nostri prodotti. Il percorso iniziato con Cefriel ci permette di impostare un modello, validarlo, utilizzarlo e soprattutto verificarne l’efficacia in modalità predittiva. Siamo solo all’inizio di un viaggio ben più ampio e lungo nel tempo, ma il primo traguardo che abbiamo raggiunto è la consapevolezza dell’importanza del dato. L’attività svolta finora ci ha permesso di vedere la realtà aziendale con “lenti nuove e diverse”, per un processo in futuro più strutturato e soprattutto data-driven”.
Cefriel ha proposto a Sacco System la realizzazione di strumenti digitali per predire la qualità del processo produttivo tramite una riduzione dimensionale di alcune variabili al fine di costruire un modello in grado di suggerire azioni di miglioramento per ottimizzare la qualità. Già questo primo assessment ha portato a importanti benefici misurabili, identificando il 7% di variabili e parametri che hanno un maggior impatto sulla qualità e resa finale. Visto l’impatto, il progetto è stato considerato l’inizio di un percorso aziendale che ha permesso di valutare modelli data-driven e che per questo è stato utilizzato internamente nell’ambito di un percorso di formazione interno mirato ad accrescere la cultura del dato.
“Siamo lieti di affiancare Sacco System nel percorso per diventare un’azienda data-driven. In Cefriel sappiamo che per migliorare e ottimizzare la produzione servono processi decisionali rapidi ed efficaci che sfruttino il più possibile i dati disponibili. I modelli analitici e il machine learning possono portare non solo a modelli predittivi, ma anche consentire all’azienda di prendere decisioni informate e migliori”, dichiara Alfonso Fuggetta, CEO e direttore scientifico di Cefriel.