Il riconoscimento vocale di Microsoft raggiunge l'affidabilità di un essere umano

Il riconoscimento vocale di Microsoft raggiunge l'affidabilità di un essere umano

Gli algoritmi di riconoscimento vocale di Microsoft hanno raggiunto il livello di capacità dell'uomo, ma non basta. In futuro si cercherà di superare il risultato ed arrivare ben oltre

di Nino Grasso pubblicata il , alle 07:01 nel canale Scienza e tecnologia
Microsoft
 

Gli algoritmi di IA sono efficaci al pari dell'uomo nei lavori di trascrizione. Un traguardo storico, così lo ha annunciato Microsoft sul blog ufficiale, che vede i robot raggiungerci in una delle competenze più distintive fra quelle maturate dall'uomo nel corso della sua evoluzione. Su un documento pubblicato recentemente gli ingegneri Microsoft della divisione Artificial Intelligence and Research scrivono che il loro sistema ha raggiunto una percentuale d'errore paragonabile a quella umana.

In questo caso il WER (Word Error Rate) è stato del 5,9%, cifra che sottolinea come gli algoritmi di Redmond facciano "gli stessi errori, o un numero inferiore di errori, rispetto ai trascrittori professionali". Negli ultimi 30 giorni il team di ricercatori è riuscito ad abbassare leggermente il tasso di errori in modo da raggiungere il risultato umano: attraverso l'ultima evoluzione si è passati nella fattispecie dal 6,3% al 5,9%, il valore più basso mai fatto registrare da un algoritmo informatico.

Microsoft, gruppo di ricercatori del team Speech & Dialog

"Abbiamo raggiunto la parità con gli esseri umani", sono state le parole utilizzate dal Chief Speech Scientist di Microsoft Xuedong Huang. "È un risultato storico". Il risultato arriva dopo decenni di test sulle tecnologie di riconoscimento vocale e sulla scia dell'ottimo 6,3% fatto registrare il mese scorso. Un tasso d'errore così basso può rappresentare un aspetto determinante nella lotta fra assistenti virtuali in atto negli ultimi anni, che non vede ancora in Microsoft una favorita.

Per raggiungere tali livelli di accuratezza i ricercatori hanno impiegato reti neurali profonde per raccogliere un ammontare significativo di dati, chiamati training set, che hanno un ruolo di fondamentale importanza nel riconoscimento delle parole provenienti da uomini e donne. Suoni e immagini sono stati utilizzati insieme per "allenare" gli algoritmi di apprendimento profondo per far sì che la rete possa utilizzare i dati immagazzinati in maniera più rapida ed efficiente.

Raggiungere la parità con gli esseri umani è un risultato lontano dalla perfezione, secondo gli stessi ricercatori che hanno rilasciato il documento. Prendere come punto di riferimento l'essere umano per un algoritmo di intelligenza artificiale, infatti, può essere un buon punto di partenza, ma non un punto di arrivo. Nello studio si parte dall'assunto che l'essere umano è imperfetto e impreciso e per il futuro i ricercatori puntano a raggiungere livelli di accuratezza ancora superiori.

Questo per garantire agli algoritmi di funzionare in maniera più accurata nelle situazioni reali in cui vengono applicati, come ad esempio ristoranti affollati, strade rumorose o in condizioni meteorologiche avverse. In aggiunta, Microsoft sta cercando di allenare gli algoritmi non solo per permetter loro di riconoscere il parlato, ma anche di capire il contenuto e il contesto in maniera profonda in modo da rendere le tecnologie sempre più intuitive da utilizzare.

Insomma, siamo ancora ben distanti da questo traguardo ma nel futuro non saremo noi a doverci sforzare di capire i computer, ma saranno loro che capiranno noi e le nostre intenzioni.

21 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
cignox120 Ottobre 2016, 09:05 #1
Complimenti!

Quando vado in ferie dai parenti di mia moglie in puglia, a cena il mio tasso di compressione deve essere inferiore al 10% :-) Chissá se questa tecnologia potrebbe un giorno aiutarmi :-)
Phoenix Fire20 Ottobre 2016, 09:32 #2
sempre interessante vedere queste notizie
complimenti al team
Correx20 Ottobre 2016, 10:58 #3
Nel 1989 lanciavo comandi dos a voce su un XT, con una Covox Voice Master. Naturalmente dovevo campionarli prima...
E' passato un quarto di secolo e ancora scriviamo con la tastiera. All'epoca pensavo sinceramente che questa tecnologia si sarebbe sviluppata in maniera piu' rapida.
emiliano8420 Ottobre 2016, 10:59 #4
bhe' ad oggi e' piu' facile, considerando il livello dei giovani (leggendo vari post e commenti)
calabar20 Ottobre 2016, 11:11 #5
@Correx
Beh, sono cose differenti. La scrittura del testo è ad un buon livello da parecchio tempo (un'amica, diversi anni fa, aveva scritto la tesi di laurea quasi esclusivamente con Dragon Naturally Speaking della Nuance), ma la comprensione del testo e la sua traduzione sono ben altro paio di maniche.
Simonex8420 Ottobre 2016, 11:14 #6
Sarei curioso di provarlo, perchè Siri non capisce mai un ca##o chissà questo di quanto è migliore...
Correx20 Ottobre 2016, 11:25 #7
Originariamente inviato da: calabar
@Correx
Beh, sono cose differenti. La scrittura del testo è ad un buon livello da parecchio tempo (un'amica, diversi anni fa, aveva scritto la tesi di laurea quasi esclusivamente con Dragon Naturally Speaking della Nuance), ma la comprensione del testo e la sua traduzione sono ben altro paio di maniche.

calabar, e' proprio l'opposto : qualsiasi computer o smartphone oggi traduce al volo un testo, gia' scritto. E' proprio il riconoscimento vocale il problema, di cui parla l'articolo. Difatti usiamo ancora la tastiera!
avvelenato20 Ottobre 2016, 11:44 #8
Originariamente inviato da: Correx
calabar, e' proprio l'opposto : qualsiasi computer o smartphone oggi traduce al volo un testo, gia' scritto. E' proprio il riconoscimento vocale il problema, di cui parla l'articolo. Difatti usiamo ancora la tastiera!


Il vero problema (e collo di bottiglia per applicazioni orizzontali) è la comprensione del testo senza training preventivo.

Suite già esistenti (come la succitata DNS) fanno il lavoro di trascrizione con una precisione già accettabile per utilizzi produttivi. Il problema è che il lavoro di training è oneroso e quindi ne preclude l'utilizzo occasionale.
Correx20 Ottobre 2016, 12:00 #9
Originariamente inviato da: avvelenato
Il vero problema (e collo di bottiglia per applicazioni orizzontali) è la comprensione del testo senza training preventivo.

Suite già esistenti (come la succitata DNS) fanno il lavoro di trascrizione con una precisione già accettabile per utilizzi produttivi. Il problema è che il lavoro di training è oneroso e quindi ne preclude l'utilizzo occasionale.


Non sono d'accordo, almeno in parte. Il vero problema, e lo è sempre stato, e' la comprensione fonetica vera e propria di qualsiasi parola da parte del computer. Ognuno di noi difatti parla in modo differente. Non puoi campionare miliardi di voci di miliardi di individui (o forse si), e un tasso di errore e di approssimazione ci sara' sempre. Se hai la "r" moscia puoi insistere quanto vuoi a chiamare "Siri", non ti rispondera' mai!
Prima di DNS c'era IBM viavoice, lo ricordo bene... E sta di fatto che oggi tu utilizzerai la tastiera per rispondere a questo messaggio.
calabar20 Ottobre 2016, 15:29 #10
Originariamente inviato da: Correx
calabar, e' proprio l'opposto : qualsiasi computer o smartphone oggi traduce al volo un testo, gia' scritto. E' proprio il riconoscimento vocale il problema, di cui parla l'articolo. Difatti usiamo ancora la tastiera!

E lo traduce in modo pessimo. Questo perchè non "capisce" il testo, anche se se lo trova scritto.

La dettatura vocale invece, con un buon software, fa un ottimo lavoro. Provalo se non ci credi. C'erano anche dei video dimostrativi, e il bello è che funzionava così davvero, come mostrato nei video.

E sto parlando di un software di quasi 10 anni fa, oggi è sicuramente migliorato, anche perchè le risorse computazionali sono molto superiori.
Un amico che lavora in Nuance mi ha spiegato che software di questo tipo sono un compromesso tra resa e "taglio" di funzionalità per rimanere entro i limiti delle macchine su cui devono girare.
Per questo oggi la l'analisi vocale nelle funzionalità di dettature degli smartphone è essenzialmente fatta remoto (anche se in alcuni casi è delegata a DPS appositi, mi pare che il primo Moto X sia stato il precursore di questa possibilità.

Nel Dragon che ho visto io occorreva leggere una paginetta per fare l' "addestramento". Roba di pochi minuti, e ti dirò che non lavorava male neppure senza il training. In questo modo si adattava al singolo utente, quindi la diversità nel modo di parlare veniva comunque ben gestita.

Fidati, siamo molto più lontani da una buona traduzione che da una buona comprensione del testo (sintattica) sotto dettatura vocale.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^