Talking Head Models con AI, Samsung raggiunge la realtà – Few-Shot Adversarial Learning
Come funziona
Il sistema appena presentato consente di creare modelli 3D realistici che ritraggono testa e volto di qualunque individuo: si tratta di rappresentazioni dinamiche che in alcuni casi appaiono davvero molto precise e indistinguibili dai video originali.
Il sistema utilizza la tecnologia della intelligenza artificiale per la ricostruzione dei modello 3D e dei movimenti facciali. Ovviamente più foto statiche si passano all’intelligenza artificiale, migliore sarà il risultato finale ma è possibile usare anche un’unica foto, come si spiega nel video pubblicato sopra.
Nel caso di specie Samsung e gli altri esperti hanno utilizzato un set di tre reti neurali, ciascuna impegnata a elaborare un differente insieme di informazioni.
Una prima rete, esamina i vari frame a disposizione, estrae le caratteristiche del volto e le combina creando un modello basato sull’impiego di vettori. In questo modo si crea un scheletro del volto o landmarks per i foto del volto a disposizione, quindi di differenti espressioni facciali.
Le informazioni così raccolto vengono ulteriormente affinate da una seconda rete neurale che si occupa di produrre un modello “sintetizzato”. Le landmanks generate unite ad un vettore di parametri contenenti le informazioni visive e descrittive del modello permetto di generare il modello 3D texurato con le caratteristiche dei frame (colore di pelle, occhi, barba, pelle ed vestiti).
Per finire il modello sintetizzato viene passato in ultima battuta alla terza rete che confronta ogni frame generato con quelli originali scartando le immagini poco realistiche e cercando così di preservare l’identità del soggetto ritratto nel video.
Il sistema utilizza una rete neurale di convoluzione , un tipo di rete neurale basata su processi biologici nella corteccia visiva degli animali. È particolarmente abile nell’elaborare pile di immagini e nel riconoscere cosa c’è in esse – la “convoluzione” essenzialmente riconosce ed estrae parti di immagini (è anche usata nelle ricerche di immagini sul web e nella tecnologia delle auto a guida autonoma, per esempio).
Una volta ottenuto il modello sintetizzato, è possibile realizzare video finti con tale volto. Da una sequenza video rappresentante un’altra persona, chiamata sequenza guida o driving sequence sono estratte la sequenza di landmarks del volto per ogni frame e vengono applicate al modello sintetico realizzato. In questo modo il modello segue la sequenza dei movimenti facciali ottenendo in questo modo dei veri video realistici.
Il sistema funziona allenandosi su una serie di caratteristiche facciali di riferimento che possono quindi essere manipolate. Gran parte della formazione è stata svolta su un database disponibile al pubblico di oltre 7000 immagini di celebrità, chiamato VoxCeleb, oltre a un numero enorme di video di persone che parlano alla telecamera.
Come sarà utilizzata, la paura dei deepfake
Tuttavia, lo sviluppo della tecnologia di Samsung nasce per buoni intenti e potrà aprire importanti sviluppi nel campo dei videogiochi, nelle applicazioni di videoconferenza e telepresenza, ambiti in cui permetterebbe la produzione di avatar delle persone che comunicano a
distanza molto più realistici rispetto a quelli creati ad oggi.
Tratto da Few-Shot Adversarial Learning of Realistic Neural Talking Head Models – Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, Victor Lempitsky – 25 settembre 2019 [ https://arxiv.org/abs/1905.08233v1 ]
Rispondi