L’evoluzione dell’editing genomico ha raggiunto un nuovo traguardo grazie all’utilizzo di modelli linguistici di intelligenza artificiale per progettare proteine CRISPR-Cas altamente funzionali. Uno studio condotto da Profluent Bio ha sviluppato un editor genomico denominato OpenCRISPR-1, che ha dimostrato una notevole efficienza e specificità, superando i limiti delle proteine naturali. Questo sviluppo apre nuove possibilità per applicazioni terapeutiche e industriali, rivoluzionando il campo della biotecnologia.
CRISPR e AI: un nuovo orizzonte nell’editing genomico
La tecnologia di editing genomico, particolarmente quella basata sui sistemi CRISPR-Cas, ha rivoluzionato la ricerca nelle scienze della vita, promettendo di trasformare medicina e agricoltura. Le proteine CRISPR-Cas naturali, pur potenti, mostrano spesso significativi compromessi funzionali quando utilizzate in ambienti non nativi, come le cellule umane. Un recente studio pubblicato su bioRxiv[1] presenta un approccio innovativo: l’utilizzo di intelligenza artificiale (AI) per progettare editor genomici con caratteristiche ottimali, superando i vincoli evolutivi.
Per raggiungere questo obiettivo, i ricercatori di Profluent Bio hanno curato un dataset di oltre un milione di operoni CRISPR attraverso un’analisi sistematica di 26 terabasi di genomi assemblati e metagenomi. Questo ha permesso di creare un atlante CRISPR-Cas con una diversità proteica notevolmente superiore rispetto ai database esistenti.
Generazione di proteine con modelli linguistici
Utilizzando modelli linguistici di grandi dimensioni, pre-addestrati su una vasta gamma di sequenze proteiche naturali, i ricercatori sono riusciti a generare milioni di nuove sequenze CRISPR-Cas. In particolare, il modello ProGen2-base è stato specializzato per le proteine CRISPR-Cas, permettendo la creazione di sequenze con proprietà funzionali avanzate. Queste sequenze sono state poi filtrate per garantire la loro validità e funzionalità, risultando in una raccolta di proteine che ha espanso la diversità naturale esistente di 4,8 volte.
Tra le proteine generate, l’editor genomico denominato OpenCRISPR-1 si è distinto per la sua alta funzionalità e specificità. Questo editor, sebbene contenente 400 mutazioni rispetto alla sequenza di SpCas9, ha mostrato attività comparabili dimostrando la potenza dell’approccio basato sull’AI. OpenCRISPR-1 ha anche raggiunto una compatibilità con l’editing di base, mostrando elevate conversioni di adenina a guanina senza generare indel, aprendo così nuove possibilità per modifiche precise del genoma.
Implicazioni per la ricerca e le applicazioni terapeutiche
L’utilizzo di editor genomici progettati con AI rappresenta un enorme passo avanti per la ricerca scientifica e le applicazioni biotecnologiche. La capacità di superare i limiti delle proteine naturali consente lo sviluppo di editor con proprietà specifiche, adatte a diversi contesti applicativi. Il rilascio pubblico di OpenCRISPR-1 mira a facilitare l’uso etico e ampio di questa tecnologia, promuovendo innovazioni sia nel campo della ricerca che in quello commerciale. Il CRISPR-Cas Atlas, creato dai ricercatori, rappresenta la risorsa più completa documentata finora di sistemi CRISPR.
Questo atlante sarà fondamentale non solo per la generazione di nuovi editor genomici, ma anche per modellare specifiche proprietà degli editor, come la preferenza per il PAM, la compatibilità con tracrRNA, la stabilità termica e l’attività dipendente dalla temperatura. Questi modelli predittivi permetteranno di ingegnerizzare editor specifici per target o alleli, offrendo soluzioni su misura per diverse applicazioni. L’approccio ha portato alla generazione di effettori di tipo II altamente diversificati, inclusi quelli simili a Cas9.
Utilizzando un modello linguistico specializzato, sono state create milioni di proteine Cas9-like, con un’alta percentuale di sequenze che hanno superato i rigorosi filtri di validità. Le proteine generate hanno mostrato una grande diversità, con un’identità mediana del 40-60% rispetto alle proteine naturali, ma con strutture predette altamente simili alle controparti naturali, suggerendo un’alta probabilità di funzionalità.
Funzionalità nelle cellule umane
Per verificare la funzionalità delle proteine generate, i ricercatori hanno testato 209 sequenze Cas9-like in cellule umane HEK293T. Molte di queste proteine hanno mostrato un’efficienza di editing paragonabile o superiore a SpCas9, con alcune che hanno dimostrato una specificità significativamente migliorata. Il top performer, OpenCRISPR-1, ha mostrato un’attività di editing comparabile a SpCas9 ma con una riduzione del 95% dell’editing fuori bersaglio. OpenCRISPR-1 è stato anche testato per l’editing di base, un metodo che modifica singole basi del DNA senza creare rotture a doppio filamento.
Il sistema OpenCRISPR-1, modificato come nickase, è stato fuso con una deaminasi adenina (ABE8.20) e testato in cellule umane. I risultati hanno mostrato tassi di conversione A-to-G elevati e comparabili ai sistemi esistenti, senza indurre formazioni di indel.
Conclusioni
Il paper sottolinea l’importanza di mantenere un controllo etico rigoroso durante tutte le fasi del progetto, dalla progettazione alla caratterizzazione sperimentale e alla successiva implementazione. Gli autori si impegnano a utilizzare queste tecnologie in modo sicuro ed etico, monitorando continuamente i rischi e i benefici potenziali delle applicazioni degli editor genomici generati dall’AI. Il lavoro svolto dai ricercatori di Profluent Bio rappresenta un significativo avanzamento nell’uso dell’intelligenza artificiale per la progettazione di proteine CRISPR-Cas.
Questo approccio innovativo ha il potenziale di trasformare l’editing genomico, offrendo strumenti più precisi e specifici per la ricerca scientifica e le applicazioni terapeutiche. Il rilascio di OpenCRISPR-1 segna un passo importante verso l’accesso a tecnologie di editing genomico avanzato, con potenziali benefici rivoluzionari per la medicina, l’agricoltura e la biotecnologia.
Glossario
- CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats): Sequenze ripetitive di DNA presenti nei genomi di batteri e archei. Queste sequenze sono utilizzate dai microbi come sistema di difesa contro virus invasori, permettendo il riconoscimento e la distruzione del materiale genetico estraneo.
- Cas (CRISPR-associated proteins): Famiglia di proteine associate a CRISPR che svolgono un ruolo fondamentale nel processo di interferenza CRISPR. Queste proteine, come Cas9, sono responsabili del taglio del DNA in posizioni specifiche.
- CRISPR-Cas9: sistema di editing genomico derivato dalla combinazione di sequenze CRISPR e della proteina Cas9. Utilizzato per introdurre modifiche precise nel DNA di cellule di vari organismi, incluso l’uomo.
- Editor Genomico: Strumento o sistema utilizzato per apportare modifiche precise al genoma di un organismo. Gli editor genomici come CRISPR-Cas9 possono tagliare, aggiungere o sostituire sequenze di DNA.
- OpenCRISPR-1: nuova proteina di editing genomico progettata con l’ausilio dell’intelligenza artificiale, che dimostra un’alta funzionalità e specificità nell’editing del genoma umano.
- Modello di Linguaggio di grandi dimensioni (LLM, Large Language Model): tipo di modello di intelligenza artificiale addestrato su enormi quantità di testo per comprendere e generare linguaggio umano. In questo contesto, è utilizzato per generare sequenze proteiche.
- ProGen2-base: modello di linguaggio pre-addestrato su sequenze proteiche naturali utilizzato per generare nuove proteine CRISPR-Cas.
- Dataset: insieme di dati raccolti e organizzati per essere utilizzati in analisi e modellazioni. Nel caso del CRISPR-Cas Atlas, comprende oltre un milione di operoni CRISPR.
- Operone CRISPR: unità funzionale del DNA contenente geni che lavorano insieme per produrre le proteine e le sequenze RNA necessarie al sistema CRISPR.
- Metagenoma: materiale genetico recuperato direttamente da campioni ambientali, che include sequenze di DNA di molteplici organismi presenti in un dato ambiente.
- Editing di Base: Tecnica di editing genomico che permette la conversione di una singola base nucleotidica in un’altra senza creare rotture a doppio filamento nel DNA. Utilizzata per correggere mutazioni puntiformi nel genoma.
- tracrRNA (trans-activating CRISPR RNA): Una componente RNA necessaria per il funzionamento di alcuni sistemi CRISPR-Cas, che si lega al crRNA e forma un complesso che guida la proteina Cas al bersaglio del DNA.
- crRNA (CRISPR RNA): Sequenza di RNA derivata dalle ripetizioni CRISPR che guida il complesso CRISPR-Cas verso la sequenza target del DNA per il taglio.
- PAM (Protospacer Adjacent Motif): breve sequenza di DNA adiacente al sito bersaglio riconosciuta da proteine Cas come Cas9. Essenziale per il riconoscimento e il taglio del DNA da parte del sistema CRISPR.
- AlphaFold2: programma di intelligenza artificiale sviluppato da DeepMind per prevedere le strutture tridimensionali delle proteine a partire dalle loro sequenze aminoacidiche.
- Nickase: variante di una nucleasi che taglia solo un filamento del DNA anziché entrambi. Utilizzata nelle tecniche di editing di base per indurre modifiche specifiche nel DNA.
- Adenina Deaminasi: Enzima che converte adenina in inosina (che si comporta come guanina nel DNA). Utilizzato negli editor di base per modificare specifiche basi adenine in guanine nel genoma.
- HEK293T: linea cellulare umana ampiamente utilizzata nei laboratori di ricerca per esperimenti di biologia cellulare e molecolare.
- Indel (Inserzioni e Delezioni): Mutazioni genetiche che comportano l’aggiunta o la rimozione di nucleotidi nel DNA. Possono alterare la funzione dei geni e sono un parametro di valutazione nell’editing genomico.
- Sanger Sequencing: Metodo di sequenziamento del DNA che permette la determinazione della sequenza nucleotidica. Utilizzato per verificare le modifiche apportate dagli editor genomici.
- Next-Generation Sequencing (NGS): Tecnologie di sequenziamento del DNA che permettono l’analisi rapida e dettagliata di grandi quantità di materiale genetico, utilizzate per caratterizzare le modifiche genomiche.
- Levenshtein Distance: misura della differenza tra due sequenze che considera il numero minimo di modifiche necessarie per trasformare una sequenza nell’altra, includendo sostituzioni, inserzioni e delezioni.
- Pfam HMMs (Hidden Markov Models): Modelli probabilistici utilizzati per rappresentare e analizzare le sequenze proteiche e predire le loro funzioni basate sulla somiglianza con sequenze note.
- Cluster di Proteine: Gruppi di proteine con alta somiglianza sequenziale che sono raggruppate insieme per facilitare l’analisi e la caratterizzazione funzionale.
- InterPro: database di risorse bioinformatiche che integra diverse informazioni sulle famiglie di proteine, le loro funzioni e strutture, utilizzato per l’annotazione delle sequenze proteiche.
Note
- Ruffolo, J. A., Nayfach, S., Gallagher, J., Bhatnagar, A., Beazer, J., Hussain, R., Russ, J., Yip, J., Hill, E., Pacesa, M., Meeske, A. J., Cameron, P., & Madani, A. (2024). Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences. bioRxiv. https://doi.org/10.1101/2024.04.22.590591.