Dal MIT un'intelligenza artificiale che riconosce oggetti da descrizioni verbali

Dal MIT un'intelligenza artificiale che riconosce oggetti da descrizioni verbali

Gli scienziati del MIT studiano un sistema basato su intelligenza artificiale che riesce a riconoscere gli oggetti in una scena semplicemente da una descrizione verbale: può essere il punto di partenza per sistemi di traduzione automatica

di pubblicata il , alle 09:01 nel canale Scienza e tecnologia
 

I sistemi di riconoscimento vocale che sono implementati nei dispositivi consumer attualmente in commercio, pur se sensibilmente migliorati anche solo rispetto a pochi anni fa, hanno ancora un comportamento tutto sommato goffo e soprattutto hanno bisogno in fase di messa a punto di notevoli quantità di annotazioni e trascrizioni perché capiscano correttamente a che cosa l'utente si stia riferendo.

Una strada percorribile è quella dell'allentamento tramite intelligenza artificiale e algoritmi e al MIT è stato portato avanti un progetto di ricerca per sperimentare un sistema di machine learning in grado di identificare gli oggetti presenti in una scena sulla base della descrizione vocale che viene fornita. Riferendosi, per esempio, ad un paio di pantaloni rossi, il sistema può riconoscere l'indumento senza che sia necessario dover ricorrere ad altre trascrizioni.

I ricercatori hanno iniziato seguendo un approccio già esistente in cui due reti neurali processano immagini e spettrogrammi audio, così da imparare a far corrispondere un frammento audio con le immagini che contengono un determinato oggetto. La rete neurale che gestisce le immagini è però stata modificata in maniera tale da dividere un'immagine in una griglia di caselle, mentre la rete neurale dedicata all'audio suddivide lo spettrogramma in frammenti della durata di 1-2 secondi.

Dopo aver abbinato la giusta immagine al relativo spezzone audio, il processo di allenamento prevede di valutare quanto il sistema AI è in grado di abbinare correttamente i segmenti audio agli oggetti presenti nella griglia. In un certo senso si può immaginare questo sistema come insegnare ad un bambino a riconoscere gli oggetti, indicandone uno specifico e pronunciando il suo nome. I ricercatori hanno allenato il sistema con un totale di 400 mila abbinamenti immagine-frammento audio, e hanno elaborato 1000 abbinamenti casuali per il test.

Un sistema di questo genere può avere svariati impieghi potenziali, ma i ricercatori sembrano essere interessati a battere la strada delle traduzioni automatiche: diviene infatti possibile, per esempio, sfruttare varie persone che parlano lingue differenti descrivendo lo stesso oggetto e far sì che il sistema assuma che un frammento audio di un idioma altro non è che la traduzione di un frammento audio di un altro idioma. Una tecnologia che potrebbe espandere in maniera significativa le capacità di riconoscimento vocale dei sistemi di assistenza, ampliandone i casi d'uso.

1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
danylo21 Settembre 2018, 18:11 #1
> far sì che il sistema assuma che un frammento audio di un idioma
> altro non è che la traduzione di un frammento audio di un altro idioma

Mi sembra un metodo un po' troppo semplicistico e simile alla traduzione di singole parole, per arrivare a tradurre un'intera frase (che sappiamo da' scarsi risultati).

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^