Scopri DALL-E, l’IA che attira qualsiasi cosa al tuo comando:

SAN FRANCISCO – A OpenAI, uno dei laboratori di intelligenza artificiale più ambiziosi al mondo, i ricercatori stanno costruendo una tecnologia che ti consente di creare immagini digitali semplicemente descrivendo ciò che vuoi vedere.

Lo chiamano DALL-E in riferimento sia a “WALL-E”, il film d’animazione del 2008 su un robot autonomo, sia a Salvador Dalí, il pittore surrealista.

OpenAI, sostenuto da un miliardo di dollari di finanziamenti da parte di Microsoft, non sta ancora condividendo la tecnologia con il grande pubblico. Ma in un pomeriggio recente, Alex Nichol, uno dei ricercatori dietro il sistema, ha dimostrato come funziona.

Quando ha chiesto “una teiera a forma di avocado”, digitando quelle parole sullo schermo di un computer in gran parte vuoto, il sistema ha creato 10 immagini distinte di una teiera di avocado verde scuro, alcune con i noccioli e altre senza. “DALL-E è bravo con gli avocado”, Mr. ha detto Nicolò.

Quando ha digitato “gatti che giocano a scacchi”, ha messo due morbidi gattini su entrambi i lati di un tabellone a scacchi, 32 pezzi degli scacchi allineati tra loro. Quando ha evocato “un orsacchiotto che suonava una tromba sott’acqua”, un’immagine mostrava minuscole bolle d’aria che salivano dall’estremità della tromba dell’orso verso la superficie dell’acqua.

DALL-E può anche modificare le foto. Quando il sig. Nichol ha cancellato la tromba dell’orsacchiotto e ha chiesto invece una chitarra, una chitarra è apparsa tra le braccia pelose.

Un team di sette ricercatori ha trascorso due anni a sviluppare la tecnologia, che OpenAI prevede di offrire alla fine come strumento per persone come artisti grafici, fornendo nuove scorciatoie e nuove idee mentre creano e modificano immagini digitali. I programmatori di computer utilizzano già Copilot, uno strumento basato su una tecnologia simile di OpenAI, per generare frammenti di codice software.

Ma per molti esperti, DALL-E è preoccupante. Poiché questo tipo di tecnologia continua a migliorare, dicono, potrebbe aiutare a diffondere la disinformazione su Internet, alimentando il tipo di campagne online che potrebbero aver contribuito a influenzare le elezioni presidenziali del 2016.

“Potresti usarlo per cose buone, ma sicuramente potresti usarlo per tutti i tipi di altre applicazioni pazze e preoccupanti, e questo include falsi profondi”, come foto e video ingannevoli, ha detto Subbarao Kambhampati, professore di informatica all’Arizona State Università.

Mezzo decennio fa, i laboratori di intelligenza artificiale leader mondiali hanno costruito sistemi in grado di identificare oggetti nelle immagini digitali e persino generare immagini da sole, inclusi fiori, cani, automobili e volti. Alcuni anni dopo, hanno costruito sistemi che potevano fare più o meno lo stesso con il linguaggio scritto, riassumendo articoli, rispondendo a domande, generando tweet e persino scrivendo post sul blog.

Ora, i ricercatori stanno combinando queste tecnologie per creare nuove forme di AI DALL-E è un notevole passo avanti perché si destreggia tra linguaggio e immagini e, in alcuni casi, coglie la relazione tra i due.

“Ora possiamo utilizzare più flussi di informazioni che si intersecano per creare una tecnologia sempre migliore”, ha affermato Oren Etzioni, amministratore delegato dell’Allen Institute for Artificial Intelligence, un laboratorio di intelligenza artificiale a Seattle.

La tecnologia non è perfetta. Quando il sig. Nichol ha chiesto a DALL-E di “mettere la Torre Eiffel sulla luna”, ma non ha afferrato l’idea. Ha messo la luna nel cielo sopra la torre. Quando ha chiesto “un soggiorno pieno di sabbia”, ha prodotto una scena che sembrava più un cantiere edile che un soggiorno.

Ma quando il sig. Nichol ha modificato un po’ le sue richieste, aggiungendo o sottraendo qualche parola qua o là, ha fornito ciò che voleva. Quando ha chiesto “un pianoforte in un soggiorno pieno di sabbia”, l’immagine sembrava più una spiaggia in un soggiorno.

DALL-E è ciò che i ricercatori di intelligenza artificiale chiamano rete neurale, che è un sistema matematico vagamente modellato sulla rete di neuroni nel cervello. Questa è la stessa tecnologia che riconosce i comandi pronunciati negli smartphone e identifica la presenza di pedoni mentre le auto a guida autonoma percorrono le strade cittadine.

Una rete neurale acquisisce abilità analizzando grandi quantità di dati. Individuando i modelli in migliaia di foto di avocado, ad esempio, può imparare a riconoscere un avocado. DALL-E cerca modelli mentre analizza milioni di immagini digitali e didascalie di testo che descrivono ciò che ciascuna immagine rappresenta. In questo modo impara a riconoscere i legami tra le immagini e le parole.

Quando qualcuno descrive un’immagine per DALL-E, genera una serie di caratteristiche chiave che questa immagine potrebbe includere. Una caratteristica potrebbe essere la linea sul bordo di una tromba. Un altro potrebbe essere la curva in cima all’orecchio di un orsacchiotto.

Quindi, una seconda rete neurale, chiamata modello di diffusione, crea l’immagine e genera i pixel necessari per realizzare queste caratteristiche. L’ultima versione di DALL-E, svelata mercoledì con un nuovo documento di ricerca che descrive il sistema, genera immagini ad alta risoluzione che in molti casi sembrano foto.

Anche se DALL-E spesso non riesce a capire ciò che qualcuno ha descritto e talvolta altera l’immagine che produce, OpenAI continua a migliorare la tecnologia. I ricercatori possono spesso affinare le capacità di una rete neurale alimentandola con quantità ancora maggiori di dati.

Possono anche costruire sistemi più potenti applicando gli stessi concetti a nuovi tipi di dati. L’Allen Institute ha recentemente creato un sistema in grado di analizzare audio, immagini e testo. Dopo aver analizzato milioni di video di YouTube, incluse tracce audio e didascalie, ha imparato a identificare momenti particolari in programmi TV o film, come un cane che abbaia o una porta che si chiude.

Gli esperti ritengono che i ricercatori continueranno a perfezionare tali sistemi. In definitiva, questi sistemi potrebbero aiutare le aziende a migliorare i motori di ricerca, gli assistenti digitali e altre tecnologie comuni, nonché ad automatizzare nuove attività per grafici, programmatori e altri professionisti.

Ma ci sono avvertimenti su questo potenziale. I sistemi di intelligenza artificiale possono mostrare pregiudizi nei confronti di donne e persone di colore, in parte perché apprendono le loro abilità da enormi pool di testo, immagini e altri dati online che mostrano pregiudizi. Potrebbero essere utilizzati per generare materiale pornografico, incitamento all’odio e altro materiale offensivo. E molti esperti ritengono che la tecnologia alla fine renderà così facile creare disinformazione che le persone dovranno essere scettiche su quasi tutto ciò che vedono online.

“Possiamo falsificare il testo. Possiamo inserire del testo nella voce di qualcuno. E possiamo falsificare immagini e video”, ha affermato il dott. ha detto Etti. “C’è già disinformazione online, ma la preoccupazione è che questa porti la disinformazione a nuovi livelli”.

OpenAI tiene al guinzaglio DALL-E. Non permetterebbe agli estranei di utilizzare il sistema da soli. Mette una filigrana nell’angolo di ogni immagine che genera. E anche se il laboratorio prevede di aprire il sistema ai tester questa settimana, il gruppo sarà piccolo.

Il sistema include anche filtri che impediscono agli utenti di generare quelle che ritengono immagini inappropriate. Quando gli è stato chiesto “un maiale con la testa di pecora”, ha rifiutato di produrre un’immagine. La combinazione delle parole “maiale” e “testa” molto probabilmente ha fatto scattare i filtri anti-bullismo di OpenAI, secondo il laboratorio.

“Questo non è un prodotto”, ha affermato Mira Murati, responsabile della ricerca di OpenAI. “L’idea è comprendere capacità e limiti e darci l’opportunità di creare misure di mitigazione”.

OpenAI può controllare il comportamento del sistema in alcuni modi. Ma altri in tutto il mondo potrebbero presto creare una tecnologia simile che mette gli stessi poteri nelle mani di quasi chiunque. Partendo da un documento di ricerca che descrive una prima versione di DALL-E, Boris Dayma, un ricercatore indipendente a Houston, ha già creato e rilasciato una versione più semplice della tecnologia.

“Le persone devono sapere che le immagini che vedono potrebbero non essere reali”, ha detto.

Leave a Comment