Project VoCo: l'algoritmo di Adobe che permette di modificare le parole di una registrazione vocale

L'azienda leader nella creazione di software per l'elaborazione delle immagini, dei video ma anche dell'audio è pronta a portare sul mercato un software che permetterà di aggiungere o eliminare le parole in una registrazione vocale. Ecco il video di una prova

di Bruno Mucciarelli pubblicata il 05 Novembre 2016, alle 10:01 nel canale Software
Adobe

Adobe è conosciuta nel mondo per la realizzazione di una serie di software che permettono oggi di modificare immagini, creare video o apportare migliorie ad un audio non proprio ottimale. La suite dei vari prodotti gruppo è però ben più ampia e, nell’offerta, non mancano strumenti dedicati all’editing audio, come Audition. Proprio con quest'ultimo Adobe ha deciso di superare se stessa portando ad un livello superiore la modifica della registrazione vocale. Ecco la nascita di Project VoCo, algoritmo che permetterà di togliere o aggiungere parole proprio nella registrazione.

Incredibile come il nuovo algoritmo permetterà una manipolazione del flusso audio proprio come se si stesse modificando un testo. In breve, Adobe VoCo sarà in grado di aggiungere o togliere parole dalle frasi pronunciate e da una registrazione vocale come se si stessero clonando o correggendo le parole su di un editor di testo.

A lavoro sono i tecnici della divisione Research della società, in collaborazione con un team della Princeton University. L'algoritmo non è altro che una sorta di sintetizzatore vocale evoluto, che tiene conto della voce dello speaker, dell’inflessione, del contesto, della cadenza e di numerosi altri parametri permettendo che la modifica non sia percepita da chi ascolta.

Durante la conferenza Adobe MAX, a San Diego, lo sviluppatore Zeyu Jin ha permesso di visionare una breve dimostrazione esaltando la platea con il sorprendente risultato del software. Purtroppo al momento non è dato sapere quando il nuovo VoCo potrà divenire un software ufficiale e pronto per il mercato. Soprattutto non è dato sapere se sarà possibile per Adobe immetterlo sul mercato visto che una modifica delle registrazioni vocali potrebbero creare molteplici discussioni sulla loro adottabilità in pubblico.

Ubisoft: Ghost Recon Wildlands ha il potenziale per essere un titolo rivoluzionario

Nuovo aggiornamento driver per le schede AMD con Radeon Software Crimson Edition 16.11.2

BIGGlive36005 Novembre 2016, 10:22 #1

i callcenter già si fregano le mani

sai quanti contratti affibbiati ai malcapitati perchè "abbiamo la registrazione della telefonata in cui accetta..." !?

Rubberick05 Novembre 2016, 10:50 #2

eh non è bello perchè quando hai un sw del genere qualsiasi prova vocale diventa nulla, cmq piano piano ci arriveremo a ste cose..

quando il 3d e la ricostruzione 3d verrà fuori cosi' bene da sembrare una ripresa con la telecamera che fai ? come fai ad essere sicuro che è un fatto successo veramente o simulato

lamp7605 Novembre 2016, 11:32 #3

Mah, sono un po' scettico su sta presentazione, la sintesi text to speech fino ad oggi produce audio molto riconoscibile, sintetico, se Adobe avesse una sintesi tts così naturale l'avrebbe già venduta a tutti i call center, Google ed Apple per le guide dei navigatori etc.
Ma non mi risulta, quindi o hanno fatto un salto avanti tecnologico su più fronti, non ci credo molto, oppure questa era un concerto, ma ancora molto lontani da un prodotto commerciale.

mihos05 Novembre 2016, 11:37 #4

Questo potrebbe iniziare a crare problemi legali.

Yrbaf05 Novembre 2016, 11:58 #5

C'è un secondo video : https://www.youtube.com/watch?v=I3l4XLZ59iw
lungo il doppio e proprio nella parte dopo la fine del video più corto di questa news si affronta la questione dell'uso sbagliato che la tecnologia permetterebbe.

Mi pare che parlino di introdurre dei watermarking nelle traccie create da VoCo e/o di allenare meglio l'orecchio umano (o altri software) per distinguere lo stesso traccie vere da traccie alterate da VoCo.

sbaffo05 Novembre 2016, 12:14 #6

l'ultima frase dell'articolo è quella più importante, dovrebbe esserne vietata la vendita. L'unico uso che ne vedo, o comunque il più importante, è quello di falsificare le registrazioni vocali. Io già adesso quando mi telefonano i soliti call center cerco di non dire mai la parola "si" in modo che non possano fare giochetti...

Tornando all'articolo, quelli che l'hanno creato sono stupidi o cosa? Se poi non lo puoi vendere cosa hai lavorato a fare? Hanno creato un software pericolosissimo per niente! Certe cose bisogna pensarci prima e non farle proprio.

E alla storia del watermark chi chi crede, quanto ci vorrà per cancellarlo o crackare il software in modo che non lo metta? Sempre che pagandoli adeguatamente non vendano direttamente la versione che non marca... ma in realtà tutti sappiamo che lo scopo è questo.
La storia di allenare l'orecchio umano non la commento neanche.

Il problema poi non è solo di creare false intercettazioni, ma di screditare tutte quelle future fatte davvero, che a questo punto potrebbero essere contraffatte, come dice anche rubberik.

TripleX05 Novembre 2016, 12:18 #7

x chi parla di 3d...veramente siamo arrivati da anni alla perfetta manipolazione video CGI (il 3d non c'entra nulla).
se vuoi di esempi perfetti di CGI su youtube ne trovi bizzeffe soprattutto in categoria UFO.
se puoi vuoi qualcosa di SORPRENDENTE tanto da non distinguere se sia computer grafica o realtà cerca SKINNYBOB.
saliut

Yrbaf05 Novembre 2016, 12:36 #8

Ci sono molti utilizzi legali (esempio come TTS ancora più naturale di alcuni che per me erano già di grandissima qualità, per attori che sbagliano di poco la battuta per correggere in post produzione senza rifare decine di ciak, ...ecc) e non si può fermare il progresso e purtroppo tutto o quasi della ricerca può essere usato per uso nel lato oscuro.

Inoltre tra loro che hanno realizzato il sw e che mostrano pubblicamente che è possibile farlo ed altri che fanno (o faranno) lo stesso ma che tengono il software segreto facendoci vivere nell'illusione del "non è ancora possibile, ...", quale è meglio ?

sbaffo05 Novembre 2016, 12:42 #9

@yrbaf
hai ragione, ma ciò non toglie le mie preoccupazioni per questo 'progresso'.
Comunque ora magari è già possibile a livello di servizi segreti o giù di lì, non per tutti, qui si parla di software che può usare anche tua moglie per farti dire che sei stato con l'amante ecc., o il call center disonesto per appiopparti un contratto. Poi vai a fargli causa più una perizia per disdire...

Il Tts già dici che è di ottima qualità, quindi va bene così.

Yrbaf05 Novembre 2016, 12:48 #10

O magari lo puoi usare tu (tu generico) per far ammettere il debito ad un tuo debitore che non ti ha mai lasciato nulla di probante e che non sta onorando il suo debito (e tu incautamente avevi fatto tutto sulla fiducia senza nulla di scritto o registrato)

Comunque ora che si sa che si può magari il giudice divorzista

prima di sentenziare dopo aver ascoltato e basta la tua voce registrata chiederà una perizia di autenticità.
E presumo che con analisi audio via software (anche senza watermarking) si possa ancora riconoscere una registrazione alterata (anche se non so per quanto e quanto bene).

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Tesla Model 3 Performance

Maserati GranCabrio Folgore

05:51

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento

07:56

DJI Avata 2: il drone FPV accessibile ancora più sicuro e divertente

06:11

Automazione e precisione nei nuovi robot Dreame

Logitech Signature Combo MK950

Lenovo ThinkVision 3D 27, la steroscopia senza occhialini Primo contatto con il monitor Lenovo ThinkVision 3D 27 che grazie a particolari accorgimenti tecnici riesce a ricreare l'illusione della spazialità tridimensionale...

Recensione Zenfone 11 Ultra: il flagship ASUS ritorna a essere un 'padellone' Zenfone 11 Ultra ha tantissime qualità interessanti, fra cui potenza da vendere, un display di primissimo livello, un comparto audio potente e prestazioni di connettività...

Granblue Fantasy: Relink, un action RPG che vi sorprenderà - Recensione PS5 Dopo l'ottimo Versus: Rising, tocca a Relink espandere l'immaginario di Granblue Fantasy. Per il suo progetto più ambizioso, Cygames sceglie di esplorare (con grande...

Sony FE 16-25mm F2.8 G: meno zoom, più luce Il nuovo Sony FE 16-25mm F2.8G si aggiunge all'analogo 24-50mm per offrire una coppia di zoom compatti ma di apertura F2.8 costante, ideali per corpi macchina altrettanto...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Appian: non solo low code. La missione è l’ottimizzazione dei processi con l'IA Abbiamo partecipato ad Appian World 2024, evento dedicato a partner e clienti che si è svolto recentemente nei pressi di Washington DC, vicino alla sede storica...

La Formula E può correre su un tracciato vero? Reportage da Misano con Jaguar TCS Racing Abbiamo visto ancora una volta la Formula E da vicino, ospiti di Jaguar TCS Racing. In questa occasione però curve e rettilinei erano quelli di un circuito permanente,...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Project VoCo: l'algoritmo di Adobe che permette di modificare le parole di una registrazione vocale

22 Commenti