Se l’Osservatorio Artificial Intelligence del Politecnico di Milano ha evidenziato come le aziende stiano avviando progetti di artificial intelligence, ma con una bassa percentuale di applicazione nel contesto lavorativo (solo il 18% ha realmente implementato soluzioni in questo campo e addirittura solo il 2% in ambito della Generative AI), c’è da chiedersi cosa si può fare per supportare davvero la transizione verso queste nuove tecnologie innovative?
Indice degli argomenti:
Un’unica piattaforma potenziata da un router intelligente
Un dialogo costante con imprenditori, manager e decision maker, che ho personalmente affrontato, ha fatto emergere come tra le principali problematiche vi sia la necessità di gestire diverse soluzioni AI per un unico processo produttivo e amministrativo, ciascuna con le proprie complessità tecniche e i relativi costi associati. Questa frammentazione non solo aumenta le spese aziendali, ma compromette anche l’efficienza complessiva dei sistemi.
L’idea è quella, dunque, di un’unica piattaforma potenziata da un router intelligente che analizza il task in ingresso e, basandosi su metriche di performance e costo, seleziona autonomamente il Large Language Model più performante ed efficiente per quella specifica richiesta, per abbattere così i costi e ridurre i tempi operativi e decisionali.
Due componenti che lavorano in sinergia
L’architettura di tale sistema si basa su due componenti che lavorano in sinergia per gestire e ottimizzare l’uso dei modelli di linguaggio tra quelli a disposizione sul mercato, in questo caso unificati in un unico ecosistema:
- Un componente di intent analysis che utilizza embedding vettoriali per comprendere e classificare le richieste in ingresso. Questo processo inizia con la tokenizzazione del testo, ottimizzata per il linguaggio naturale, seguita dalla generazione di vettori matematici ad alta dimensionalità che rappresentano il significato semantico della richiesta. Il sistema confronta questi vettori con una knowledge base di pattern noti per classificare il tipo di richiesta, estraendo anche metadati cruciali come la lunghezza del contesto e la complessità computazionale necessaria.
- Un componente di ottimizzazione dinamico che monitora continuamente le performance di ogni modello linguistico, tracciando metriche chiave come i tempi di risposta, i costi di elaborazione e il tasso di successo per diverse tipologie di task. Basandosi su questi dati
real-time, il sistema in modo intelligente attua la sua strategia di routing: indirizza i task più semplici verso modelli ottimizzati per la velocità, affida le analisi complesse ai modelli più avanzati, e utilizza modelli specializzati per compiti specifici come la generazione di codice. Un aspetto fondamentale è la gestione della “temperatura” – un parametro che controlla il bilanciamento tra precisione e creatività nelle risposte generate dall’AI. Per richieste che necessitano di risposte fattuali precise, come analisi di dati o query tecniche, il sistema imposta automaticamente una temperatura bassa, privilegiando la coerenza e l’accuratezza. Per task creativi, come la generazione di contenuti o il brainstorming, viene utilizzata una temperatura più alta, permettendo al modello di esplorare soluzioni più innovative e diverse.
Questa architettura riduce significativamente i costi operativi mantenendo elevati standard di performance e disponibilità.
Oltre al framework di orchestrazione descritto, l’architettura include ulteriori tre innovazioni chiave: un sistema di generazione UI real-time, capacità RAG e un token management system.

Tre innovazioni chiave dell’architettura
Il componente di generative UI opera attraverso un’architettura a microservizi in ambiente virtuale, dove l’AI produce componenti React mediante un processo multi-fase. Un parser converte le istruzioni in codice ottimizzato, mentre container isolati ne garantiscono l’esecuzione sicura. L’ottimizzatore applica pattern enterprise-grade e assicura compatibilità cross-browser, permettendo di creare interfacce complesse con elevati standard di sicurezza.
Il sistema integra inoltre capacità di RAG (Retrieval-Augmented Generation), una tecnica che arricchisce le capacità dei modelli linguistici con conoscenze specifiche dell’azienda. Implementato attraverso LangChain e LlamaIndex, indicizza e vettorizza i documenti aziendali in un database ottimizzato per query semantiche. Quando un utente formula una richiesta, vengono automaticamente recuperate le informazioni più rilevanti dai documenti interni, combinate con il contesto della conversazione e utilizzate per arricchire il prompt al modello linguistico.
Questo approccio aumenta significativamente l’accuratezza delle risposte e assicura la coerenza con le policy e le conoscenze aziendali, riducendo al contempo il rischio di hallucination.
Infine, il token management system gestisce e ottimizza le risorse computazionali attraverso una rete di collector che alimentano un database time-series. Questo permette di tracciare e analizzare il consumo di token in tempo reale, ottimizzare i prompt attraverso tecniche NLP per ridurre i token necessari, oltre ad identificare similarità tra richieste mediante embedding vettoriali e riutilizzare computazioni precedenti quando appropriato.
Conclusioni
Tali integrazioni permettono non solo di ottimizzare tempi e costi aziendali, ma di stabilire nuovi standard per la scalabilità e l’efficienza delle soluzioni AI enterprise, bilanciando così prestazioni e sostenibilità attraverso l’ottimizzazione delle risorse. Ad oggi l’intelligenza artificiale non può certo definirsi sostenibile, ma l’innovazione di una soluzione che integra molteplici LLM è in grado di avere un minore impatto anche a livello ambientale.
La nostra visione è chiara: democratizzare l’accesso all’AI mantenendo un equilibrio tra potenza computazionale e responsabilità ambientale in un mercato che ha già registrato una crescita record del 58% nel 2024 in Italia, raggiungendo quota 1,2 miliardi di euro.