RicercAttiva - Talking Head Models con AI, Samsung raggiunge la realtà

Una nuova tecnologia basata sull’Intelligenza artificiale permetterà di ottenere video realistici partendo da una sola foto o immagine di una persona e di realizzare avatar più realistici per videoconferenza e telepresenza.

Grazie all’intelligenza artificiale è oggi possibile animare il volto di una persona o un ritratto ottenendone immagini animate e in movimento: come se la persona uscisse dalla foto, si materializzasse e prendesse vita. Non si tratta della scena di un film di fantascienza ma di una tecnologia che Samsung ha implementato e sta collaudando.

Ad oggi, per ottenere animazioni di immagini statiche si utilizzano modelli

di reti neurali artificiali che richiedono una notevole quantità di dati e di foto da analizzare; questo che viene fatto per creare i cosiddetti deepfake, video in cui viene sostituito il volto del protagonista originale con quello di un altro e animato grazie a computer.

Ma nel loro studio, i ricercatori del Samsung Al Center di Mosca, aperto lo scorso anno, e dello Skolkovo Institute of Science and Technology, hanno ottenuto la stessa cosa limitando al minimo le immagini di partenza e il tempo per l’apprendimento iniziale del sistema di intelligenza artificiale che svolgerà il compito.

Una dimostrazione delle capacità di questo sistema si può avere in un video di Egor Zacharov (uno dei ricercatori) su YouTube, dove i volti di personaggi famosi come Albert Einsteine, Marilyn Monroe prendono vita muovendo bocca e occhi. Anche il ritratto della celebre Gioconda di Leonardi da Vinci assume sembianze umane e comincia ad animarsi come se si trattasse della ripresa di una persona reale.

Come funziona

Il sistema appena presentato consente di creare modelli 3D realistici che ritraggono testa e volto di qualunque individuo: si tratta di rappresentazioni dinamiche che in alcuni casi appaiono davvero molto precise e indistinguibili dai video originali.
Il sistema utilizza la tecnologia della intelligenza artificiale per la ricostruzione dei modello 3D e dei movimenti facciali. Ovviamente più foto statiche si passano all’intelligenza artificiale, migliore sarà il risultato finale ma è possibile usare anche un’unica foto, come si spiega nel video pubblicato sopra.

Nel caso di specie Samsung e gli altri esperti hanno utilizzato un set di tre reti neurali, ciascuna impegnata a elaborare un differente insieme di informazioni.

Una prima rete, esamina i vari frame a disposizione, estrae le caratteristiche del volto e le combina creando un modello basato sull’impiego di vettori. In questo modo si crea un scheletro del volto o landmarks per i foto del volto a disposizione, quindi di differenti espressioni facciali.

Le informazioni così raccolto vengono ulteriormente affinate da una seconda rete neurale che si occupa di produrre un modello “sintetizzato”. Le landmanks generate unite ad un vettore di parametri contenenti le informazioni visive e descrittive del modello permetto di generare il modello 3D texurato con le caratteristiche dei frame (colore di pelle, occhi, barba, pelle ed vestiti).

Per finire il modello sintetizzato viene passato in ultima battuta alla terza rete che confronta ogni frame generato con quelli originali scartando le immagini poco realistiche e cercando così di preservare l’identità del soggetto ritratto nel video.

Il sistema utilizza una rete neurale di convoluzione , un tipo di rete neurale basata su processi biologici nella corteccia visiva degli animali. È particolarmente abile nell’elaborare pile di immagini e nel riconoscere cosa c’è in esse – la “convoluzione” essenzialmente riconosce ed estrae parti di immagini (è anche usata nelle ricerche di immagini sul web e nella tecnologia delle auto a guida autonoma, per esempio).

Una volta ottenuto il modello sintetizzato, è possibile realizzare video finti con tale volto. Da una sequenza video rappresentante un’altra persona, chiamata sequenza guida o driving sequence sono estratte la sequenza di landmarks del volto per ogni frame e vengono applicate al modello sintetico realizzato. In questo modo il modello segue la sequenza dei movimenti facciali ottenendo in questo modo dei veri video realistici.

Il sistema funziona allenandosi su una serie di caratteristiche facciali di riferimento che possono quindi essere manipolate. Gran parte della formazione è stata svolta su un database disponibile al pubblico di oltre 7000 immagini di celebrità, chiamato VoxCeleb, oltre a un numero enorme di video di persone che parlano alla telecamera.

Come sarà utilizzata, la paura dei deepfake

Questa tecnologia, davvero stupefacente, in grado di creare veri e propri film basati su personaggi che mai li hanno recitati, ha un risvolto che può destare qualche preoccupazione: potrebbe essere sfruttata da malintenzionati per creare falsi filmati come i deepfake, ma più realistici e quindi insidiosi, anche e soprattutto se utilizzati allo scopo di creare false prove nei procedimenti giudiziari o inventare azioni poco encomiabili da parte di personaggi pubblici che si vuole mettere in cattiva luce.

Tuttavia, lo sviluppo della tecnologia di Samsung nasce per buoni intenti e potrà aprire importanti sviluppi nel campo dei videogiochi, nelle applicazioni di videoconferenza e telepresenza, ambiti in cui permetterebbe la produzione di avatar delle persone che comunicano a
distanza molto più realistici rispetto a quelli creati ad oggi.

Tratto da Few-Shot Adversarial Learning of Realistic Neural Talking Head Models – Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, Victor Lempitsky – 25 settembre 2019 [ https://arxiv.org/abs/1905.08233v1 ]