Un nuovo strumento di intelligenza artificiale potrebbe aiutare i ricercatori a scoprire proteine ancora sconosciute e progettarne di completamente nuove. Inoltre, potrebbe aiutare a sbloccare lo sviluppo di vaccini più efficienti, accelerare la ricerca per la cura del cancro e portare a materiali completamente nuovi. Il nuovo strumento, ProteinMPNN, descritto da un gruppo di ricercatori dell’Università di Washington in due articoli pubblicati su Science today (disponibili qui e qui), offre un potente complemento alla tecnologia AlphaFold di Alphabet DeepMind.
Le proteine sono fondamentali per la vita e comprendere la loro forma è vitale per lavorare con loro. All’inizio di quest’estate DeepMind ha annunciato che AlphaFold potrebbe ora prevedere le forme di tutte le proteine note alla scienza.
ProteinMPNN è l’ultimo esempio di come il deep learning stia rivoluzionando la progettazione delle proteine offrendo agli scienziati nuovi strumenti di ricerca. Tradizionalmente i ricercatori ingegnerizzano le proteine modificando quelle che si verificano in natura, ma ProteinMPNN aprirà un nuovo universo di possibili proteine per i ricercatori.
“In natura, le proteine risolvono praticamente tutti i problemi della vita, che vanno dalla raccolta di energia dalla luce solare alla produzione di molecole. Tutto in biologia avviene dalle proteine”, afferma David Baker, uno degli scienziati che ha condotto la ricerca, direttore dell’Institute for Protein Design presso l’Università di Washington.
Le proteine sono costituite da centinaia a migliaia di amminoacidi che sono collegati in lunghe catene, che poi si piegano in forme tridimensionali. AlphaFold aiuta i ricercatori a prevedere la struttura risultante, offrendo informazioni su come si comporteranno. ProteinMPNN aiuterà i ricercatori con il problema inverso: se hanno già in mente una struttura proteica esatta, li aiuterà a trovare la sequenza di amminoacidi che si piega in quella forma. Il sistema utilizza una rete neurale addestrata su un numero molto elevato di esempi di sequenze di amminoacidi, che si piegano in strutture tridimensionali.
Due metodi di apprendimento automatico
Ma i ricercatori devono anche risolvere un altro problema. Per progettare proteine utili per applicazioni nel mondo reale, come un nuovo enzima che digerisce la plastica, devono prima capire quale spina dorsale proteica avrebbe quella funzione.
Per fare ciò, i ricercatori del laboratorio di Baker utilizzano due metodi di apprendimento automatico, dettagliati in un articolo su Science dello scorso luglio.
Il primo, chiamato “constrained hallucination” consente agli utenti di fare una ricerca casuale tra tutte le possibili sequenze proteiche e favorire sequenze con determinate funzioni. Ciò consente di esplorare lo spazio di tutte le possibili strutture proteiche, grazie alla capacità dell’apprendimento automatico di elaborare vasti set di dati. Ci sono 20 aminoacidi che possono essere combinati in un numero enorme di possibili sequenze.
Il secondo, “in painting“, funziona in modo molto simile al completamento automatico in un elaboratore di testi, ma per strutture e sequenze proteiche. Usando questi metodi, i ricercatori possono creare una proteina completamente nuova che non è mai stata vista in natura prima, come una gigantesca struttura ad anello.
ProteinMPNN è disponibile gratuitamente sul repository software open source GitHub, fornirà ai ricercatori gli strumenti per creare nuovi progetti illimitati.