Microsoft: ecco l'intelligenza artificiale che può disegnare partendo da un testo

Microsoft: ecco l'intelligenza artificiale che può disegnare partendo da un testo

Una nuova tecnologia di intelligenza artificiale è capace di disegnare elementi partendo da una descrizione testuale. Non ancora perfetta, è comunque stupefacente

di pubblicata il , alle 10:01 nel canale Scienza e tecnologia
Microsoft
 

Microsoft ha presentato una nuova tecnologia di intelligenza artificiale capace di disegnare qualunque cosa gli venga descritta da un testo: si tratta di un'evoluzione di tentativi già percorsi, sia da Microsoft, sia da altre realtà, che è in grado di mostrare un miglioramento di tre volte rispetto a quanto possibile ottenere con le versioni precedenti.

La tecnologia sviluppata da Microsoft è in grado di generare qualsiasi tipo di immagine, da scene reali a riproduzioni fantasiose. Il "drawing-bot", come viene chiamato dall'azienda di Redmond, è stato allenato su un vasto dataset di immagini in maniera tale che potesse apprende come collegarle alle rispettive parole. Vengono usati due modelli di machine learning, uno per generare immagini dalle descrizioni testuali e uno che parte dalle descrizioni per giudicare l'autenticità delle immagini generate. Lavorando in tandem questi due modelli possono creare immagini di maggior qualità rispetto a quanto possibile fino ad ora.

Il bot in particolare avrebbe dimostrato la capacità di disegnare anche interpretando frasi più complesse: laddove altre tecnologie potrebbero essere in grado di disegnare un soggetto leggendo la parola corrispondente, la qualità dell'immagine potrebbe paradossalmente peggiorare se alla parola viene aggiunta una descrizione complessa con altri elementi e colori. Interessante è inoltre la capacità del bot di completare un disegno anche se non vengono menzionati dettagli specifici, mostrando quindi una sorta di buonsenso e di immaginazione.

La generazione di immagini a partire da un testo può trovare applicazione nel concreto come una sorta di assistente virtuale per disegnatori e progettisti, o come strumento per fotoritocco basato su comandi vocali.

Attualmente comunque si tratta di una tecnologia ancora in fase di sviluppo e studio, poiché in svariati casi mostra ancora alcune imperfezioni nella creazione dei disegni che suggeriscono chiaramente che si tratta di immagini create da un computer e non da un essere umano.

"Perché l'intelligenza artificiale e gli esseri umani possano coesistere dobbiamo trovare un modo per interagire. E il linguaggio e la vista sono le due modalità più importanti perché uomini e macchine possano interagire" ha commentato Xiaodong He, ricercatore per il Deep Learning Technology Center di Microsoft.

10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
giovanni6920 Gennaio 2018, 12:19 #1
Ecco a cosa servono tutti quei miliardi di immagini, foto.. che finiscono nei cloud non criptate:allenare le macchine
Avatar020 Gennaio 2018, 12:40 #2
Originariamente inviato da: giovanni69
Ecco a cosa servono tutti quei miliardi di immagini, foto.. che finiscono nei cloud non criptate:allenare le macchine


ad allenare le macchine che stampano soldi, ai robot-artisti restano le briciole
kamon20 Gennaio 2018, 19:12 #3
Ah me le sceglie da un database, non è che disegni veramente...
rockroll21 Gennaio 2018, 00:47 #4
Originariamente inviato da: kamon
Ah me le sceglie da un database, non è che disegni veramente...


Anche secondo me.
Sicuramente l'A.I. interviene nella scelta a suo giudizio più corrispondente alla descrizione, o meglio alle presenza di parole chiave del testo che è istruita a ricinoscere. Chiaramente più la si fa lavorare e più amplia il suo D.B. ed il suo processo di correlazioni (che qualcuno chiamerebbe legami neurali).
Niente di fantascientifico quindi.
zappy21 Gennaio 2018, 10:45 #5
Originariamente inviato da: kamon
Ah me le sceglie da un database, non è che disegni veramente...

certo.
al più magari gli cambia colore: sa che l'immagine ha del giallo, se gli dici rosso mette il rosso al posto del giallo.

e cmq probabilmente "uccellino" per 'sta IA è "una cosa di quella forma che sta su un ramo (e che COMPRENDE il ramo ). Già se è in volo x me ha difficoltà a capire che è "la stessa cosa".
Mockba21 Gennaio 2018, 15:58 #6
Originariamente inviato da: zappy
certo.
al più magari gli cambia colore: sa che l'immagine ha del giallo, se gli dici rosso mette il rosso al posto del giallo.

e cmq probabilmente "uccellino" per 'sta IA è "una cosa di quella forma che sta su un ramo (e che COMPRENDE il ramo ). Già se è in volo x me ha difficoltà a capire che è "la stessa cosa".


Beh, ma alla fine è la stessa cosa che fa il nostro cervello, no? quando noi riconosciamo un qualsiasi oggetto, oppure ne leggiamo la parola e lo focalizziamo nella nostra mente, non facciamo altro che attingere dal nostro database naturale, che è immensamente più grande di qualsiasi database di immagini in internet.. se tu vedessi un gatto volare in cielo credo faresti fatica a riconoscerlo subito, proprio perchè nel "tuo database" non sarebbe ancora contenuto l'insieme di informazioni che definiscono un gatto volante, anzi lo proveresti ad associare a qualcos'altro.. quante persone leggendo "gatto volante" disegnerebbero subito questo
Davide921 Gennaio 2018, 22:39 #7
Si ma c'e' una parte consapevole del tuo cervello e credo che sia questo a potenziare esponenzialmente l'intelligenza che abbiamo noi, non a caso per una IA come dice l'articolo piu' i termini descrittivi sono numerosi e piu' e' difficile dare un risultato soddisfacente, mentre per un uomo sarebbe il contrario.
Speriamo che a nessuno venga in mente di rendere consapevole qualche IA per potenziarne i risultati...
Per l'ipotesi del database bello un programma che pesa trentamila giga piu' del dovuto per fare una ricerca di immagini anziche' disegnartele te
cignox122 Gennaio 2018, 09:37 #8
--Beh, ma alla fine è la stessa cosa che fa il nostro cervello, no?

Beh, si e no: quando io disegno qualcosa, faccio si riferimento a immagini che magari ho in memoria, ma uso anche moltissime informazioni supplimentari: se mi chiedi di disegnare una mano, io parto da quelli che so essere i volumi principali che compongono una mano, che sono a loro volta una sintesi dell'anatomia interna della mano. Poi, sapendo quale mobilitá hanno le varie arrticolazioni, posso scegliere la posa.

Chiaro, orizontalmente a tutto questo attingo ad immagini che ho visto (le mie mani, il disegno di altri pittori, eventuali figure fatte in passato da me e dalle quali posso prendere ció che aveva funzionato etc), ma sicuro non mi limito a "pescare" dalla mia memoria.
zappy22 Gennaio 2018, 10:46 #9
Originariamente inviato da: Mockba
Beh, ma alla fine è la stessa cosa che fa il nostro cervello, no? quando noi riconosciamo un qualsiasi oggetto, oppure ne leggiamo la parola e lo focalizziamo nella nostra mente, non facciamo altro che attingere dal nostro database naturale, che è immensamente più grande di qualsiasi database di immagini in internet.. se tu vedessi un gatto volare ...

la tua idea mi sembra un po' "meccanicista".
il cervello umano non è un "database" anche perchè dimentica una marea di dettagli.
invece è capace di astrazione.
Mockba22 Gennaio 2018, 15:38 #10
Originariamente inviato da: zappy
la tua idea mi sembra un po' "meccanicista".
il cervello umano non è un "database" anche perchè dimentica una marea di dettagli.
invece è capace di astrazione.


non volevo dire che il cervello è semplicemente solo "un database", ma una "macchina" che appena riceve un input, ad esempio la parola "cubo", esegue una ricerca nel proprio "database" di tutte le informazioni (principalmente disposizione relativa tra le vare superfici) che ha riguardo tale input per poi passarle "al motore grafico" che ne sviluppa "un render" nella nostra immaginazione aggiungengo più o meno dettagli in base a una miriade di variabili in gioco nell'istante in cui si ha ricevuto l'input. Se poi si aggiungono ulteriori informazioni, ad esempio "cubo blu su sfondo nero", il render mentale viene aggiornato. Saper poi riprodurre graficamente una cosa più o meno fedelmente sta alla bravura/esperienza/strumenti a disposizione della persona o bot che sia.
Sul link della Microsoft dicono che l'immagine viene creata pixel per pixel, non "pescata" da un database.. o ho capito male?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^