Project VoCo: l'algoritmo di Adobe che permette di modificare le parole di una registrazione vocale

Project VoCo: l'algoritmo di Adobe che permette di modificare le parole di una registrazione vocale

L'azienda leader nella creazione di software per l'elaborazione delle immagini, dei video ma anche dell'audio è pronta a portare sul mercato un software che permetterà di aggiungere o eliminare le parole in una registrazione vocale. Ecco il video di una prova

di Bruno Mucciarelli pubblicata il , alle 10:01 nel canale Software
Adobe
 

Adobe è conosciuta nel mondo per la realizzazione di una serie di software che permettono oggi di modificare immagini, creare video o apportare migliorie ad un audio non proprio ottimale. La suite dei vari prodotti gruppo è però ben più ampia e, nell’offerta, non mancano strumenti dedicati all’editing audio, come Audition. Proprio con quest'ultimo Adobe ha deciso di superare se stessa portando ad un livello superiore la modifica della registrazione vocale. Ecco la nascita di Project VoCo, algoritmo che permetterà di togliere o aggiungere parole proprio nella registrazione.

Incredibile come il nuovo algoritmo permetterà una manipolazione del flusso audio proprio come se si stesse modificando un testo. In breve, Adobe VoCo sarà in grado di aggiungere o togliere parole dalle frasi pronunciate e da una registrazione vocale come se si stessero clonando o correggendo le parole su di un editor di testo.

A lavoro sono i tecnici della divisione Research della società, in collaborazione con un team della Princeton University. L'algoritmo non è altro che una sorta di sintetizzatore vocale evoluto, che tiene conto della voce dello speaker, dell’inflessione, del contesto, della cadenza e di numerosi altri parametri permettendo che la modifica non sia percepita da chi ascolta.

Durante la conferenza Adobe MAX, a San Diego, lo sviluppatore Zeyu Jin ha permesso di visionare una breve dimostrazione esaltando la platea con il sorprendente risultato del software. Purtroppo al momento non è dato sapere quando il nuovo VoCo potrà divenire un software ufficiale e pronto per il mercato. Soprattutto non è dato sapere se sarà possibile per Adobe immetterlo sul mercato visto che una modifica delle registrazioni vocali potrebbero creare molteplici discussioni sulla loro adottabilità in pubblico.

22 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
BIGGlive36005 Novembre 2016, 10:22 #1
i callcenter già si fregano le mani
sai quanti contratti affibbiati ai malcapitati perchè "abbiamo la registrazione della telefonata in cui accetta..." !?
Rubberick05 Novembre 2016, 10:50 #2
eh non è bello perchè quando hai un sw del genere qualsiasi prova vocale diventa nulla, cmq piano piano ci arriveremo a ste cose..

quando il 3d e la ricostruzione 3d verrà fuori cosi' bene da sembrare una ripresa con la telecamera che fai ? come fai ad essere sicuro che è un fatto successo veramente o simulato
lamp7605 Novembre 2016, 11:32 #3
Mah, sono un po' scettico su sta presentazione, la sintesi text to speech fino ad oggi produce audio molto riconoscibile, sintetico, se Adobe avesse una sintesi tts così naturale l'avrebbe già venduta a tutti i call center, Google ed Apple per le guide dei navigatori etc.
Ma non mi risulta, quindi o hanno fatto un salto avanti tecnologico su più fronti, non ci credo molto, oppure questa era un concerto, ma ancora molto lontani da un prodotto commerciale.
mihos05 Novembre 2016, 11:37 #4
Questo potrebbe iniziare a crare problemi legali.
Yrbaf05 Novembre 2016, 11:58 #5
C'è un secondo video : https://www.youtube.com/watch?v=I3l4XLZ59iw
lungo il doppio e proprio nella parte dopo la fine del video più corto di questa news si affronta la questione dell'uso sbagliato che la tecnologia permetterebbe.

Mi pare che parlino di introdurre dei watermarking nelle traccie create da VoCo e/o di allenare meglio l'orecchio umano (o altri software) per distinguere lo stesso traccie vere da traccie alterate da VoCo.
sbaffo05 Novembre 2016, 12:14 #6
l'ultima frase dell'articolo è quella più importante, dovrebbe esserne vietata la vendita. L'unico uso che ne vedo, o comunque il più importante, è quello di falsificare le registrazioni vocali. Io già adesso quando mi telefonano i soliti call center cerco di non dire mai la parola "si" in modo che non possano fare giochetti...

Tornando all'articolo, quelli che l'hanno creato sono stupidi o cosa? Se poi non lo puoi vendere cosa hai lavorato a fare? Hanno creato un software pericolosissimo per niente! Certe cose bisogna pensarci prima e non farle proprio.

E alla storia del watermark chi chi crede, quanto ci vorrà per cancellarlo o crackare il software in modo che non lo metta? Sempre che pagandoli adeguatamente non vendano direttamente la versione che non marca... ma in realtà tutti sappiamo che lo scopo è questo.
La storia di allenare l'orecchio umano non la commento neanche.

Il problema poi non è solo di creare false intercettazioni, ma di screditare tutte quelle future fatte davvero, che a questo punto potrebbero essere contraffatte, come dice anche rubberik.
TripleX05 Novembre 2016, 12:18 #7
x chi parla di 3d...veramente siamo arrivati da anni alla perfetta manipolazione video CGI (il 3d non c'entra nulla).
se vuoi di esempi perfetti di CGI su youtube ne trovi bizzeffe soprattutto in categoria UFO.
se puoi vuoi qualcosa di SORPRENDENTE tanto da non distinguere se sia computer grafica o realtà cerca SKINNYBOB.
saliut
Yrbaf05 Novembre 2016, 12:36 #8
Ci sono molti utilizzi legali (esempio come TTS ancora più naturale di alcuni che per me erano già di grandissima qualità, per attori che sbagliano di poco la battuta per correggere in post produzione senza rifare decine di ciak, ...ecc) e non si può fermare il progresso e purtroppo tutto o quasi della ricerca può essere usato per uso nel lato oscuro.

Inoltre tra loro che hanno realizzato il sw e che mostrano pubblicamente che è possibile farlo ed altri che fanno (o faranno) lo stesso ma che tengono il software segreto facendoci vivere nell'illusione del "non è ancora possibile, ...", quale è meglio ?
sbaffo05 Novembre 2016, 12:42 #9
@yrbaf
hai ragione, ma ciò non toglie le mie preoccupazioni per questo 'progresso'.
Comunque ora magari è già possibile a livello di servizi segreti o giù di lì, non per tutti, qui si parla di software che può usare anche tua moglie per farti dire che sei stato con l'amante ecc., o il call center disonesto per appiopparti un contratto. Poi vai a fargli causa più una perizia per disdire...

Il Tts già dici che è di ottima qualità, quindi va bene così.
Yrbaf05 Novembre 2016, 12:48 #10
O magari lo puoi usare tu (tu generico) per far ammettere il debito ad un tuo debitore che non ti ha mai lasciato nulla di probante e che non sta onorando il suo debito (e tu incautamente avevi fatto tutto sulla fiducia senza nulla di scritto o registrato)

Comunque ora che si sa che si può magari il giudice divorzista prima di sentenziare dopo aver ascoltato e basta la tua voce registrata chiederà una perizia di autenticità.
E presumo che con analisi audio via software (anche senza watermarking) si possa ancora riconoscere una registrazione alterata (anche se non so per quanto e quanto bene).

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^