Nell’effervescente ecosistema delle startup francesi, che vede protagonisti nomi come Mistral, Poolside e Adaptive, ecco emergere Bioptimus. Con sede a Parigi e un ambizioso obiettivo: costruire il primo modello universale di intelligenza artificiale per la biologia. La società esce allo scoperto dopo un round di finanziamenti seed da 35 milioni di dollari; il nuovo modello di scienza aperta connetterà le diverse scale della biologia con l’intelligenza artificiale generativa – dalle molecole alle cellule, ai tessuti e agli organismi interi.
Chi è Bioptimus
Bioptimus riunisce un team composto da ex membri di Google DeepMind e scienziati di Owkin (la startup biotech AI Owkin è a sua volta un unicorno francese) che sfrutteranno le capacità computazionali di AWS e la generazione dati di Owkin, oltre all’accesso a dati multimodali dei pazienti provenienti dai principali ospedali accademici in tutto il mondo. Secondo un comunicato stampa diramato dall’azieda, “tutto ciò conferisce il potere di creare rappresentazioni computazionali che stabiliscono una forte differenziazione rispetto ai modelli addestrati esclusivamente su dataset pubblici e una singola modalità dati che non sono in grado di catturare la piena diversità della biologia”.
Bioptimus può muoversi più velocemente di Google DeepMind
In un’intervista, Jean-Philippe Vert, co-fondatore e CEO di Bioptimus, Chief R&D Officer di Owkin e ex responsabile della ricerca presso Google Brain, ha affermato che, in quanto azienda più piccola e indipendente, Bioptimus può muoversi più velocemente di Google DeepMind per ottenere un accesso diretto ai dati necessari per addestrare i modelli biologici. “Abbiamo il vantaggio di poter collaborare più facilmente e in modo sicuro con i partner, e abbiamo instaurato un livello di fiducia nel nostro lavoro condividendo la nostra competenza in AI e rendendo disponibili i nostri modelli per la ricerca”, ha dichiarato. “Questo può essere difficile per le grandi aziende tech. Bioptimus sfrutterà anche alcuni dei controlli di sovranità più forti presenti sul mercato oggi”.
Anche Rodolphe Jenatton, ex ricercatore scientifico presso Google DeepMind, si è unito al team di Bioptimus. Il lavoro di Bioptimus sarà rilasciato come open source su un livello simile alle release del modello Mistral. “La trasparenza, la condivisione e la comunità saranno elementi chiave per noi”, ha affermato.
Attualmente, i modelli AI sono limitati a specifici aspetti della biologia, spiega Vert. “Ad esempio, diverse aziende stanno iniziando a costruire modelli linguistici per le sequenze proteiche”, ha detto Vert, aggiungendo che ci sono anche iniziative per costruire un modello fondamentale per le immagini delle cellule. Tuttavia non esiste una visione olistica dell’intera biologia: “La buona notizia è che la tecnologia AI sta convergendo molto rapidamente, con alcune architetture che permettono di avere tutti i dati che contribuiscono insieme a un modello unificato”, ha spiegato. “Questo è ciò che vogliamo fare. Per quanto ne sappia, non esiste ancora. Ma sono certo che se non lo facessimo noi, qualcun altro lo farebbe nel prossimo futuro”.
Il più grande ostacolo, ha detto, è l’accesso ai dati. “È molto diverso dall’addestrare un LLM sul testo sul web”, ha detto. E quell’accesso, ha sottolineato, è ciò che Bioptimus ha in abbondanza, grazie alla sua partnership con Owkin.
I foundation model sono il futuro della biologia
La biologia e le scienze biomediche sono campi maturi per essere rivoluzionati. I progressi tecnologici come il sequenziamento del DNA, la proteomica e l’imaging medico hanno consentito la generazione di enormi set di dati che descrivono i sistemi biologici a varie scale, dalle molecole a interi organismi.
Da questo, la comunità scientifica ha iniziato a esplorare i foundation model in biologia, con successi iniziali molto promettenti, tra cui la previsione della struttura e delle funzioni delle proteine. Tuttavia, gli attuali foundation model proposti per i dati biologici rimangono limitati in termini di dimensioni e complessità. Sono ben lungi dal massimizzare l’effetto benefico del ridimensionamento, come osservato per il linguaggio naturale o le immagini. Anche i modelli attuali sono limitati a una singola scala biologica, e pochi sforzi sono ancora riusciti a catturare l’intera complessità multi-scala della biologia.
Bioptimus: il coltellino svizzero della biologia
Consentire alla comunità scientifica di acquisire una comprensione olistica della biologia su tutte le scale è fondamentale per svelare la biologia delle malattie, scoprire nuovi farmaci e sviluppare strumenti diagnostici migliori. Bioptimus crede che questi foundation model abbiano la capacità di catturare il modo in cui le diverse scale della biologia si regolano e interagiscono tra loro, unendosi per creare il “coltellino svizzero” della biologia.
Per qualsiasi scienziato o organizzazione che studia i sistemi biologici, foundation model come questi aiuteranno a mappare in modo più efficiente i dati sperimentali e biomedici su qualsiasi scala e da qualsiasi modalità in una rappresentazione computazionale coerente. A sua volta, questa rappresentazione alimenterà numerose applicazioni a valle, come la previsione dell’evoluzione di una malattia o la risposta di un paziente a un trattamento candidato esistente o nuovo.
Codice, calcolo, creazione
Sfruttando i modelli basati sull’attenzione, Biotpmius creerà rappresentazioni contestuali di entità biologiche che interagiscono tra loro e collegherà tali rappresentazioni attraverso le scale. Questo funzionerà nello stesso modo in cui gli LLM creano la rappresentazione di un testo dalle rappresentazioni delle parole o dei token che contiene e dalle loro interazioni (vedi fig 1).
Il primo passo nella creazione di questi modelli è quello di reperire i dati giusti da grandi set di dati a ogni scala di biologia, tra cui DNA, RNA, proteine, tessuti e cartelle cliniche elettroniche.
Il secondo passo è sfruttare MOSAIC, un’iniziativa da 50 milioni di dollari che unisce i migliori centri accademici e partner del settore per creare il più grande set di dati omici spaziali e multimodali al mondo in oncologia da 7mila pazienti in sette indicazioni oncologiche. Ancora più importante, la pietra angolare di MOSAIC è la trascrittomica spaziale, parte della nuova ondata di tecniche che permettono di collegare le scale fondamentali della biologia.
Al fine di ottenere la potenza di calcolo necessaria per addestrare e servire gli FM, Bioptimus avrà accesso a una partnership esclusiva tra Owkin e Amazon Web Services (AWS). La collaborazione offre un volume e un’affidabilità migliorati nella fornitura delle migliori GPU della categoria e i data scientist trarranno vantaggio da prestazioni migliorate dell’area di lavoro e strumenti di data science.
Questa soluzione offrirà misure avanzate di sicurezza dei dati, opzioni di archiviazione scalabili e solide capacità di calcolo, consentendo a scienziati e ricercatori di accedere, analizzare e gestire grandi quantità di dati in modo efficiente e sicuro.
L’applicazione dei foundation model alla biologia
L’applicazione dei foundation model in biologia è destinata ad avere un profondo impatto sulla scienza e sulla società.
Attraverso Bioptimus, l’intera biologia di un essere umano, dalle proteine ai tessuti, sarà codificata nella rappresentazione multiscala. Sfruttando la potenza dei modelli di base e degli algoritmi avanzati addestrati su enormi quantità di dati biologici su tutte le scale, l’obiettivo è di catturare quantitativamente le leggi della biologia che sono troppo complesse per essere comprese correttamente.