OpenAI ha rilasciato Sora, un modello di intelligenza artificiale per la generazione di video in grado di creare filmati realistici e, soprattutto, in linea con le leggi fisiche del mondo reale. I video generati da Sora colpiscono non solo per la qualità delle immagini, ma perché il modello sembra in grado di “capire” come riprodurre personaggi che si muovono e compiono azioni rispettando i confini del mondo fisico.
Secondo OpenAI, Sora rappresenta un passo fondamentale nell'evoluzione dell'AI generativa, in quanto equivale a “insegnare all'AI come comprendere e simulare il mondo in movimento”.
La versione attuale del modello è in grado di generare video a partire da prompt di testo, proprio come chatGpt e Dall-e 3, e produce video della durata massima di un minuto che mantengono l'aderenza visiva all’input dell'utente.
I video di esempio pubblicati da OpenAI sono impressionanti. In uno, una donna cammina in una città che ricorda Tokyo di notte. In un altro, dei mammut corrono nella neve, sovrapponendosi l’uno all’altro senza interrompere la continuità dell’immagine. In un terzo, un cane cammina da un davanzale all’altro, senza dare la sensazione di fluttuare o volare, ma rispettando la rappresentazione fisica della forza di gravità che il nostro cervello si aspetterebbe.
Qui sopra, un video generato da Sora in risposta a questo prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field”.
Come chatGpt, Sora utilizza un’architettura di tipo transformer e impara dai filmati precedenti scomponendo i video in unità di dati più piccole, chiamate patch, con una tecnica simile a quella con cui Gpt scompone le parole in token. I video vengono quindi generati creando una serie di patch di rumore a cui il modello applica un processo di “denoise” in oltre 50 passi di diffusione successivi.
Grazie al sistema delle “patch”, il modello può creare video con qualsiasi risoluzione o orientamento. Inoltre, Sora è in grado di prevedere molti fotogrammi alla volta: in questo modo può mantenere un soggetto invariato anche quando questo esce temporaneamente dalla visuale o viene coperto da un altro soggetto nel video generato. Non è tutto: oltre all’input di testo, Sora può generare video per completare un video esistente, rimanendo fedele all’originale, oppure creare un video a partire da un’immagine.
Attualmente Sora non è disponibile al pubblico. Prima di rilasciarlo o integrarlo in altri prodotti OpenAI, l'azienda vuole valutare adeguatamente i problemi di sicurezza e i potenziali casi di uso improprio della tecnologia.
"Prima di rendere Sora disponibile nei prodotti OpenAI, adotteremo diverse misure di sicurezza importanti. Stiamo lavorando con i red teamer - esperti in aree come la disinformazione, i contenuti di odio e i pregiudizi - che testeranno il modello in modo approfondito”, ha scritto l'azienda in un articolo sul nuovo modello. "Stiamo anche costruendo strumenti per aiutare a rilevare i contenuti fuorvianti, come un classificatore di rilevamento in grado di dire quando un video è stato generato da Sora. Abbiamo in programma di includere i metadati C2PA in futuro, nel caso in cui implementeremo il modello in un prodotto OpenAI".