Entro il 2026 esauriremo i dati con cui addestrare l'Intelligenza Artificiale: cosa vuol dire?

Gianmarco Bonomo image
di Gianmarco Bonomo

16 Novembre 2023

Entro il 2026 esauriremo i dati con cui addestrare l'Intelligenza Artificiale: cosa vuol dire?

L’intelligenza artificiale è ormai diventata parte delle nostre vite, in un modo o nell’altro. L’ascesa delle varie IA generative ha però portato a un certo allarme fra i ricercatori: i dati per addestrare le intelligenze artificiali potrebbero finire prima di quanto crediamo. In questo articolo, vedremo perché la mancanza di dati per l’addestramento delle IA è un problema, e quali sono le soluzioni.

Come viene addestrata l’intelligenza artificiale

Come viene addestrata l’intelligenza artificiale

Pexels

Addestrare gli algoritmi che fungono da base per le IA generative richiede una grande quantità di dati. Inoltre, è importante che questi dati siano di alta qualità, così da innalzare anche la qualità delle risposte. Per fare degli esempi, ChatGPT è stata addestrata su 570 Gigabyte di testo, ossia circa 300 miliardi di parole. E lo stesso è avvenuto per gli algoritmi che generano immagini come Dall-E, addestrato su quasi 6 miliardi di coppie testo-immagine. Insomma: per avere delle intelligenze artificiali davvero utili nella vita di tutti giorni, è necessario tanto, troppo testo che possa addestrarle.

Il problema è che, come abbiamo detto, questi dati devono essere di alta qualità. Per capire perché basta farsi una domanda: davvero vogliamo che ChatGPT si addestri su tutti i post dei social media che vediamo ogni giorno? Potremmo rischiare fallimenti come quello di Microsoft, che ha ottenuto risposte inclini al razzismo da una IA generativa addestrata sui contenuti di Twitter. I dati devono quindi essere di alta qualità, e qui si incontra il secondo problema: non ce ne sono abbastanza. Anzi, per alcuni ricercatori, i dati di testo di alta qualità potrebbero esaurirsi entro il 2026. E poi?

Il futuro dell’intelligenza artificiale: come avverrà l’addestramento?

Il futuro dell’intelligenza artificiale: come avverrà l’addestramento?

Pexels

L’allarme lanciato sui dati per addestrare le intelligenze artificiali è, al momento, soltanto un allarme. Gli sviluppatori potrebbero ottimizzare gli algoritmi e quindi portare a IA generative che:

  • utilizzano meglio i dati esistenti;
  • sono portate a utilizzare meno dati;
  • riducono l’impronta di carbonio richiesta.

Questa alternativa è però fatta da tanti ma e qualche se. Un’altra opzione è quella di un accordo con i grandi editori, per l’accesso libero delle IA ai nuovi libri e al patrimonio letterario esistente. In questo modo, sarebbe possibile anche evitare di usare dati di addestramento senza compensare i detentori del copyright. Infine, c’è una soluzione della quale non si parla ancora molto: addestrare l’intelligenza artificiale con dati sintetici, ossia prodotti da un’intelligenza artificiale.

Addestrare l’IA con dati prodotti dall’IA: è questo il futuro

Addestrare l’IA con dati prodotti dall’IA: è questo il futuro

Freepik

Esatto, esistono aziende che stanno affrontando la carenza di dati in modo “creativo”, producendo dati sintetici con i quali addestrare l’IA. Alcuni esempi di questo approccio sono Mostly AI e Clearbox AI, che addestrano le intelligenze artificiali con dati prodotti dalle intelligenze artificiali. Si tratta di algoritmi basati su tecnologia proprietaria che rappresentano simulazioni matematiche di situazioni reali. I dati sintetici rispettano la privacy delle persone e riducono i costi associati per l’accesso ai dati sensibili.

D’altronde, i sostenitori dei dati sintetici spingono proprio sul fattore della privacy, oltre che sulla carenza di dati reali di alta qualità. Usando dati creati dall’IA, si risolvono queste problematiche e si possono addestrare, nelle intenzioni delle aziende, i modelli generativi. Forse rimane un unico dilemma: su quali dati sono state addestrate le IA che producono i dati con cui addestrare le IA?