AI Decoded - gli elementi costitutivi dell'IA: decodificare il contributo e il significato dei Foundation Model

Nuovo appuntamento con la serie NVIDIA che si pone l’obiettivo di demistificare l'hardware, il software e gli strumenti che alimentano l’IA Queste reti neurali, addestrate su grandi volumi di dati, alimentano le applicazioni protagoniste della rivoluzione dell'IA generativa

Milano, 11/04/2024 (informazione.it - comunicati stampa - information technology)

I grattacieli partono da fondamenta solide. Lo stesso vale per le applicazioni basate sull'intelligenza artificiale.

Un foundation model è una rete neurale di intelligenza artificiale addestrata su immense quantità di dati non elaborati, in genere con un apprendimento non supervisionato.

È un tipo di modello di intelligenza artificiale addestrato a comprendere e generare un linguaggio simile a quello umano. Immaginiamo di dare a un computer un'enorme biblioteca di libri da leggere e da cui imparare, in modo che possa comprendere il contesto e il significato di parole e frasi, proprio come fa un essere umano.

La profonda base di conoscenza di un foundation model e la sua capacità di comunicare in linguaggio naturale lo rendono utile per un'ampia gamma di applicazioni, come la generazione e il riassunto di testi, la creazione di copilot e l'analisi di codici informatici, la creazione di immagini e video, la trascrizione audio e la sintesi vocale.

ChatGPT, una delle applicazioni di IA generativa più importanti, è un chatbot costruito con il foundation model GPT di OpenAI. Giunto alla sua quarta versione, GPT-4 è un modello multimodale di grandi dimensioni che può acquisire testo o immagini e generare risposte di testo o immagini.

Le applicazioni online costruite sui foundation model accedono in genere ai modelli da un data center. Ma molti di questi modelli, e le applicazioni che li alimentano, possono ora essere utilizzati a livello locale su PC o workstation con GPU NVIDIA GeForce e NVIDIA RTX.

Usi dei foundation model

I “foundation model” possono svolgere una serie di funzioni, tra cui:

Elaborazione del linguaggio: comprensione e generazione di testo
Generazione di codici: analisi e debug di codici informatici in molti linguaggi di programmazione.
Elaborazione visiva: analisi e generazione di immagini.
Elaborazione vocale: generazione di testo in voce e trascrizione del parlato in testo.

Possono essere utilizzati così come sono o con un ulteriore affinamento. Piuttosto che addestrare un modello di IA completamente nuovo per ogni applicazione di IA generativa - un'operazione costosa e che richiede tempo - gli utenti comunemente perfezionano i foundation model per casi d'uso specifici.

I foundation model pre-addestrati sono straordinariamente efficienti, grazie ai prompt e alle tecniche di recupero dei dati come la retrieval-augmented generation (RAG). I foundation model sono eccellenti anche nell'apprendimento per trasferimento, il che significa che possono essere addestrati a svolgere un secondo compito legato al loro scopo originale.

Ad esempio, un modello linguistico generico di grandi dimensioni (LLM) progettato per conversare con gli esseri umani può essere ulteriormente addestrato per fungere da chatbot del servizio clienti in grado di rispondere alle richieste di informazioni utilizzando una base di conoscenze aziendali.

Le aziende di tutti i settori stanno perfezionando i loro foundation model per ottenere le migliori prestazioni dalle loro applicazioni di IA.

Tipologie di foundation model

Sono in uso più di 100 foundation model, un numero che continua a crescere. Gli LLM e i generatori di immagini sono i due tipi di modelli più diffusi. Molti di questi possono essere provati gratuitamente da chiunque - su qualsiasi hardware - all'interno del catalogo API di NVIDIA.

Gli LLM sono modelli che comprendono il linguaggio naturale e possono rispondere alle query. Gemma di Google ne è un esempio; eccelle nella comprensione del testo, nella trasformazione e nella generazione di codice. Alla domanda sull'astronomo Cornelius Gemma, ha risposto che "i suoi contributi alla navigazione celeste e all'astronomia hanno avuto un impatto significativo sul progresso scientifico". Inoltre, ha fornito informazioni sui suoi successi più importanti, sulla sua eredità e su altri aspetti.

Estendendo la collaborazione dei modelli Gemma, accelerati con NVIDIA TensorRT-LLM su GPU RTX, CodeGemma di Google offre alla community capacità di codifica potenti ma leggere. I modelli CodeGemma sono disponibili come varianti preaddestrate 7B e 2B, specializzate in compiti di completamento e generazione del codice.

MistralAI LLM è in grado di seguire istruzioni, completare richieste e generare testi creativi. Quando gli è stato chiesto di utilizzare keyword differenti per la serie AI decoded, mi ha aiutato a creare il titolo di questo blog e il testo che racconta cos'è un foundation model.

Llama 2 di Meta è un LLM all'avanguardia che genera testo e codici in risposta ai prompt.

Mistral e Llama 2 sono disponibili nella tech demo NVIDIA ChatRTX, in esecuzione su PC e workstation RTX. ChatRTX consente agli utenti di personalizzare questi foundation model collegandoli a contenuti personali - come documenti, note del medico e altri dati - tramite RAG. Il sistema è accelerato da TensorRT-LLM per ottenere risposte rapide e pertinenti al contesto. E poiché viene eseguito localmente, i risultati sono immediati e più sicuri.

I generatori di immagini come Stable Diffusion XL e SDXL Turbo di StabilityAI consentono agli utenti di generare immagini realistiche e sorprendenti. Il generatore video di StabilityAI, Stable Video Diffusion, utilizza un modello di diffusione generativa per sintetizzare sequenze video con una singola immagine come fotogramma condizionante.

I foundation model multimodali possono elaborare simultaneamente più di un tipo di dati, come testo e immagini, per generare output più sofisticati.

Un modello multimodale che lavora sia con il testo che con le immagini potrebbe consentire agli utenti di caricare un'immagine e porre domande su di essa. Questi tipi di modelli si stanno rapidamente diffondendo in applicazioni reali come il customer service, dove possono fungere da versioni più rapide e facili da usare dei manuali tradizionali.

Kosmos 2 è l'innovativo modello multimodale di Microsoft progettato per comprendere e ragionare sugli elementi visivi delle immagini.

Pensa in maniera globalizzata, usa i modelli di intelligenza artificiale a livello locale

Le GPU GeForce RTX e NVIDIA RTX possono eseguire fondation model in locale.

I risultati sono rapidi e sicuri. Invece di affidarsi a servizi basati su cloud, gli utenti possono sfruttare applicazioni come ChatRTX per elaborare dati sensibili sul proprio PC personale, senza condividere i dati con terze parti o aver bisogno di una connessione a Internet.

Gli utenti possono scegliere da un catalogo in rapida crescita di foundation model aperti che possono essere scaricati ed eseguiti sul proprio hardware. Questo riduce i costi rispetto all'utilizzo di applicazioni e API basate su cloud ed elimina i problemi di latenza e connettività di rete.

L'intelligenza artificiale generativa sta trasformando i giochi, le videoconferenze e le esperienze interattive di ogni tipo. Per sapere cosa c'è di nuovo e cosa succederà, iscrivetevi alla newsletter AI Decoded.

Allegati

Slide Show

Non disponibili