Il modello LLM appropriato rende gli agenti più efficaci
Come utilizzatori di un computer, non abbismo bisogno di sapere come si costruisce un microprocessore per comprendere le differenze esistenti fra i vari modelli. Questa analogia vale anche per i modelli LLM e, sebbene i criteri possano essere differenti, molto dipende da alcune considerazioni di base.
La prossima figura spiega i criteri essenziali per definire che cosa rende un modello LLM degno di essere preso in considerazione per la creazione di un agente GPT o di un qualsiasi altro task per un modello LLM.
I criteri da considerare nella scelta di un modello LLM.
Per i nostri scopi di creazione di agenti a intelligenza artificiale, dobbiamo considerare ciascuno di questi criteri in termini correlati al compito da svolgere. Le dimensioni del contesto del modello e la velocità potrebbero essere considerate il sesto e settimo criterio, ma di solito sono considerate varianti di un’architettura e di un’infrastruttura di distribuzione del modello.
Leggi anche: Le allucinazioni dell’AI generativa
Un ottavo criterio da considerare per un modello LLM è il costo, ma questo dipende da molti altri fattori. Ecco un riepilogo di come questi criteri si relazionano alla creazione di agenti a intelligenza artificiale.
- Prestazioni del modello: in genere, vorremo conoscere le prestazioni del modello LLM per un dato set di compiti. Per esempio, se stiamo creando un agente specifico per la programmazione, allora sarà essenziale che il modello LLM funzioni bene sul codice.
- Parametri del modello (dimensioni): spesso le dimensioni di un modello sono un eccellente indicatore delle prestazioni inferenziali e dell’efficacia del modello nelle risposte. Tuttavia, le dimensioni determineranno anche i requisiti hardware. Se prevediamo di utilizzare un nostro modello ospitato localmente, le dimensioni del modello determineranno anche il computer e la GPU di cui abbiamo bisogno. Fortunatamente, stiamo sempre più assistendo al rilascio di modelli open source piccoli ma molto potenti.
- Caso d’uso (tipo di modello): il tipo del modello presenta diverse varianti. I modelli per completamento a chat come ChatGPT sono efficaci per iterare e ragionare su un problema, mentre i modelli per completamento, per domande/risposte e per istruzioni sono più correlati a compiti specifici. Un modello per completamento a chat è essenziale per le applicazioni ad agenti, specialmente quelle che impiegano iterazioni.
- Input di addestramento: la comprensione del contenuto utilizzato per addestrare un modello spesso determinerà il dominio del modello stesso. Mentre i modelli generali possono essere efficaci un po’ in tutte le attività, i modelli più specifici o perfezionati possono essere più pertinenti per un determinato dominio. Questo può essere un aspetto da considerare nel caso di un agente specifico per un dominio: un modello più piccolo ma perfezionato può funzionare addirittura meglio di un modello più grande, come GPT-4.
- Metodo di addestramento: forse è meno problematico, ma può essere utile capire quale metodo è stato utilizzato per addestrare un modello. Il modo in cui un modello viene addestrato può influenzare la sua capacità di generalizzare, ragionare e pianificare. Questo può essere essenziale per gli agenti di planning, ma forse è meno significativo nel caso degli agenti rispetto al caso di un assistente più specifico per un determinato compito.
- Dimensioni in token contestuali: le dimensioni del contesto di un modello sono più specifiche dell’architettura e del tipo di modello. Determinano le dimensioni del contesto o della memoria che il modello può contenere. Una finestra contestuale più piccola, meno di 4.000 token, è in genere più che sufficiente per le attività semplici. Tuttavia, una finestra contestuale ampia può essere essenziale quando si utilizzano più agenti, tutti in conversazione su un compito. In genere, i modelli saranno distribuiti in più varianti in termini di dimensioni della finestra contestuale.
- Velocità del modello (distribuzione del modello): la velocità di un modello è dettata dalla sua velocità inferenziale (ovvero dalla rapidità con cui un modello risponde a una richiesta), che a sua volta dipende dall’infrastruttura su cui viene eseguito. Se il nostro agente non interagisce direttamente con gli utenti, potrebbe non essere necessaria la velocità da tempo reale. Al contrario, un agente LLM che interagisce in tempo reale deve essere il più veloce possibile. Per i modelli commerciali, la velocità sarà determinata e supportata dal provider. La propria infrastruttura determinerà la velocità per coloro che desiderano eseguire i propri modelli LLM.
Per chi vuole sfruttare al massimo le potenzialità dell’intelligenza artificiale e creare assistenti software su misura in cui riporre piena fiducia.
- Costo del modello (budget del progetto): spesso il costo è dettato dal progetto. Che si tratti di imparare a costruire un agente o di implementare un software aziendale, il costo è sempre un fattore da considerare. Esiste un compromesso significativo tra l’esecuzione dei nostri modelli LLM e l’utilizzo di un’API commerciale.
Ci sono molti aspetti da considerare nello scegliere il modello sul quale costruire un sistema ad agenti. Tuttavia, scegliere e lavorare con un singolo modello è solitamente la scelta migliore, se gli scopi sono la ricerca e l’apprendimento. Chi non conosce i modelli LLM e gli agenti, probabilmente preferirà scegliere un’opzione commerciale, come GPT-4 Turbo.
Nel tempo, i modelli attuali saranno senza dubbio sostituiti da nuovi modelli, migliori. Quindi potremmo dover aggiornare o sostituire i modelli in base a come si evolvono i modelli disponibili e i nostri criteri di valutazione.
Questo articolo richiama contenuti da AI Agent in pratica.
Immagine originale di Andrea De Santis su Unsplash.