Un bambino con una telecamera frontale ha insegnato all'AI come i piccoli apprendono il linguaggio

Francesca Argentati image
di Francesca Argentati

05 Febbraio 2024

Un bambino con una telecamera frontale ha insegnato all'AI come i piccoli apprendono il linguaggio

L'intelligenza artificiale ha raggiunto un altro traguardo: quello di aiutarci a comprendere come i bambini imparano la loro lingua madre. Ecco cosa ha rivelato uno studio molto interessante.

Apprendimento della lingua negli umani e nell'AI

Apprendimento della lingua negli umani e nell'AI

New York University/Youtube screenshot

L'intelligenza artificiale sta aiutando molti settori a raccogliere informazioni inedite e fare nuove scoperte in tempi incredibilmente rapidi rispetto al passato. Una ricerca svolta presso la New York University ha mostrato come l'AI è riuscita a imparare una lingua attraverso una telecamera posizionata su un casco indossato da un bambino di 18 mesi, Sam. Questo sistema ha permesso di aiutare i ricercatori a comprendere come gli umani imparano a conoscere una lingua, ha spiegato il coautore dello studio Wai Keen Vong. "In che modo i bambini piccoli imparano ad associare nuove parole a oggetti specifici o concetti rappresentati visivamente? Questa questione fortemente dibattuta nell’acquisizione precoce del linguaggio è stata tradizionalmente esaminata nei laboratori, limitando la generalizzabilità alle situazioni del mondo reale" si legge nello studio.

Dai sei ai nove mesi di età, i bambini iniziano ad apprendere le prime parole, collegandole agli oggetti cui si riferiscono e che osservano visivamente. Verso i due anni, riescono a riconoscere circa trecento parole, arrivando a mille intorno ai quattro anni. L'intelligenza artificiale è stata in grado di imparare semplicemente eseguendo associazioni tra le parole e le immagini che vedeva essere collegate, senza alcuna previa programmazione della conoscenza linguistica. Questo sembra minare le teorie cognitive secondo cui gli esseri umani necessitano di una conoscenza innata sul funzionamento del linguaggio per poter conferire un significato a una data parola.

L'AI osserva scene di vita tramite il casco indossato dal bambino

L'AI osserva scene di vita tramite il casco indossato dal bambino

New York University/Youtube screenshot

La telecamera montata sul casco indossato da Sam, di Adelaide, Australia, ha registrato 61 ore di attività, raccogliendo episodi della vita quotidiana del bambino dal suo punto di vista. Sam ha portato il casco dotato di fotocamera per circa un'ora due giorni a settimana per un anno e mezzo, dai sei ai venticinque mesi di età. Una volta raccolti i dati, il team ha addestrato il proprio modello AI, una rete neurale che simula la struttura cerebrale, sulle immagini e sulle parole viste e ascoltate dal bambino. In tutto, l'intelligenza artificiale ha ricevuto 250.000 parole e le relative immagini associate, che Sam ha osservato e sentito durante attività come mangiare, giocare e leggere.

Il modello AI ha impiegato il metodo dell'apprendimento contrastivo per capire quali immagini sono associate a delle parole e quali no, in modo da generare informazioni da cui attingere per prevedere a quali oggetti corrispondono determinati termini. Durante il test per mettere alla prova il modello, i ricercatori hanno domandato all'intelligenza artificiale di collegare una parola a una di quattro immagini proposte: si tratta dello stesso test impiegato per la valutazione delle abilità linquistiche nei bambini. A questo punto, l'AI ha dimostrato di saper eseguire associazioni corrette nel 62% dei casi, riconoscendo parole come "palla" e "culla". In alcuni casi, è riuscito ad associare i termini a immagini che non erano state mostrate dalla telecamera, come "cane" e "mela", con un successo pari al 35%.

L'AI può apprendere il linguaggio attraverso gli occhi e le orecchie di un bambino

L'AI può apprendere il linguaggio attraverso gli occhi e le orecchie di un bambino

New York University/Youtube screenshot

Nel caso in cui una parola avesse più associazioni di immagini, come ad esempio "cibo" o "giocattolo", l'apprendimento è risultato più complicato. Sebbene lo studio sia stato svolto con dati acquisiti da un solo bambino, il che potrebbe generare perplessità sulla sua applicabilità generale, i risultati evidenziano che i bambini, durante i loro primi giorni di vita, possono apprendere molto grazie alla creazione di associazioni tra fonti sensoriali differenti. Naturalmente, imparare una lingua per un essere umano è più semplice che per un modello AI: i bambini sperimentano molte più cose del mondo reale, mentre l'intelligenza artificiale viene addestrata sull'associazione tra immagini e parole scritte, senza alcuna interazione empirica. Per esempio, i bambini imparano quasi subito il significato della parola "mani" proprio perché le utilizzano per far molte cose, come spiega Vong: "I bambini hanno le loro mani, hanno molta esperienza con esse. Questo è sicuramente un componente mancante del nostro modello”.

In definitiva, nonostante molti modelli di apprendimento automatico attingano a un'infinità di dati per produrre un testo, la ricerca ha dimostrato che questo processo potrebbe essere più semplice del previsto. Brenden Lake, professore associato di psicologia e scienza dei dati alla New York University e autore senior della ricerca, ha dichiarato che "i modelli odierni non necessitano di tutti gli input necessari per poter fare generalizzazioni significative. Abbiamo dimostrato, per la prima volta, che è possibile addestrare un modello di intelligenza artificiale ad apprendere le parole attraverso gli occhi e le orecchie di un singolo bambino”.

Un altro risultato sorprendente, sia per quanto riguarda le capacità dell'AI che la conoscenza dell'apprendimento della lingua umana nei bambini.