Deep learning, machine learning e, più in generale, progetti di intelligenza artificiale affinché abbiano successo hanno bisogno di un approccio “di business” ai dati. Significa, da un lato, che i set di dati devono essere validati da un punto di vista di qualità, privacy, sicurezza, dall’altro, che le aziende devono dare priorità a visibilità, controllo e gestione dei dati (in ottica anche di mobilità e disponibilità) lungo tutta la catena del valore del dato, ossia ovunque sia, “from edge to core to cloud”. L’obiettivo principale, prima di avviare qualsiasi progetto, dovrebbe infatti essere quello di avere dati completi, corretti (affidabili, consistenti, temporalmente validi) e accessibili; in altre parole, bisognerebbe avere il controllo sui propri data store affinché siano disponibili in modo adeguato ai sistemi di deep learning.
Sistemi che necessitano quindi di avanzate infrastrutture tecnologiche, come quella annunciata poche settimane fa da NetApp: l’architettura NetApp ONTAP AI, che integra i supercomputer NVIDIA DGX e lo storage cloud connected all-flash NetApp A800.
«La soluzione hardware si presenta come infrastruttura convergente che integra in un’unica soluzione l’avanzata capacità di elaborazione dei sistemi NVIDIA con lo storage all-flash di NetApp (scalabile agilmente verso il cloud), più la componente di networking basata sulle soluzioni Cisco, per semplificare, accelerare e scalare la pipeline dei dati per utilizzi deep learning. In altre parole, per fornire i dati giusti, al momento giusto e al posto giusto alle applicazioni di intelligenza artificiale», spiega Roberto Patano, Senior Manager Solution Engineering di NetApp Italia. «Una delle caratteristiche principali di questa architettura è la facile scalabilità che consente alle aziende di partire con una configurazione “minima” (un server NVIDIA DGX e uno storage NetAp A800) per avviare i primi progetti pilota ampliando poi le capacità delle macchine arrivando a consolidare fino a 70 server NVIDIA e 12 sistemi storage NetApp, anche in modo indipendente, accrescendo di volta in volta solo le risorse davvero necessarie».
La società, come accennato, parla poi di “pipeline ininterrotta dei dati”, che significa garanzia di disponibilità e accesso ai dati dall’edge al core al cloud, ossia integrando fonti di dati eterogenee, dinamiche e distribuite eliminando colli di bottiglia nelle prestazioni e accesso sicuro e senza interruzioni ai dati (indipendentemente da dove siano realmente).
«Il valore per le aziende sta nel fatto di poter avere a disposizione una architettura validata, software-defined, già ingegnerizzata e testata per specifici progetti di deep learning e intelligenza artificiale», continua Patano. «L’architettura si presenta come sistema convergente ed è disponibile on-premises ma è cloud-ready, quindi si presta per essere parte di infrastrutture hybrid-cloud (anche la scalabilità delle risorse stesse può avvenire su ambienti cloud attraverso GPU o Storage as a service)».
La “validazione” dell’infrastruttura è avvenuta attraverso diversi progetti e test, i primi basati sui cosiddetti TIPS (training imaging per second: il numero di immagini che un sistema riesce a rielaborare al secondo per fare un’analisi): «la nostra soluzione raggiunge i 23mila TIPS, risulta essere una delle più veloci sul mercato», dichiara Patano. «In realtà il valore si vede anche nella velocità di trasmissione delle informazioni che avviene grazie alla tecnologia Nvme (non-volatile memory express) che garantisce un collegamento dedicato ed estremamente veloce tra storage e processori con latenze bassissime nell’ordine non più dei millisecondi ma dei microsecondi. Caratteristica estremamente importante quando si tratta di progetti di deep learning ed intelligenza artificiale».
Deep learning in action: Vincent impara a dipingere come Van Gogh
Per dimostrare le potenzialità di oggi del deep learning, Cambridge Consultants ha sviluppato un sistema interattivo chiamato Vincent in grado di trasformare un semplice schizzo in un’opera d’arte. Vincent, durante l’apprendimento è stato esposto a migliaia di capolavori di Van Gogh, Cézanne, Picasso e molti altri maestri d’arte; per mettere a punto ed affinare l’algoritmo che consentisse a Vincent di produrre opere d’arte credibili traendo ispirazione dai grandi pittori della nostra storia, gli esperti hanno utilizzato il sistema della rete generativa contraddittoria (basata su intelligenza artificiale generativa), una tecnologia in cui le reti neurali si sfidano durante l’allenamento per migliorare la sintesi dei dati e individuare i dati sintetizzati rispetto ai dati reali. Il vero apprendimento proviene da sette reti neurali che si sfidano durante l’allenamento.
Vincent è stato addestrato interamente utilizzando le GPU NVIDIA e lo storage NetApp, ha impiegato circa 14 ore di allenamento, 8 GPU e milioni di file scratch per imparare a dipingere. Il sistema di apprendimento stesso è basato su server NVIDIA DGX-1 e storage NetApp: durante il processo di apprendimento, Vincent genera milioni di iterazioni e un’enorme quantità di dati, in quanto sintonizza oltre 200 milioni di parametri all’interno delle sue reti neurali.
Il risultato è visibile in questo video: