RicercAttiva - Riconoscimento delle emozioni con i computer: due approcci a confronto

Il problema del riconoscimento degli stati emotivi attraverso la comunicazione non verbale (tratti del volto, gesti delle mani, movimento e postura del corpo) in modo automatico sta diventando un campo di studio molto attivo. Particolare interesse si sta rivolgendo al riconoscimento automatico delle espressioni facciali dell’uomo per lo studio della comunicazione in ambienti sociali.

L’app Insanity sviluppata da per i Google Glass è una delle più innovative applicazioni in commercio che utilizzano queste nuove tecnologie.

Gli studi sul legame tra mimica facciale e stati emotivi, cominciando da Darwin fino ai più recenti studi di P. Ekman e W. Friesen, hanno dimostrato che il volto è un potente canale di comunicazione per trasmettere emozioni, opinioni relative a esperienze, persone, prodotti o situazioni che si stanno vivendo. Un’espressione facciale può essere definita come una manifestazione visibile dello stato emotivo, delle attività cognitive, delle intenzioni, della personalità e della psicologia di una persona. È ben noto che la mimica facciale ha una maggiore efficacia comunicativa rispetto ad altri mezzi di comunicazione dell’uomo, quali voce, parole e gesti del corpo e per questa ragione fra tutti i mezzi di comunicazioni è anche il più studiato dovendo estrarre informazioni da materiale multimediale, come video e immagini.

Per questi motivi una grande comunità di ricerca sta studiando le espressioni facciali per diverse applicazioni in differenti aree sociali, come l’assistenza sanitaria, il marketing, l’istruzione, la sicurezza e l’intrattenimento. Nel marketing ad esempio, si può estrarre un’opinione positiva o negativa sui prodotti di consumo in modo non invasivo o per aiutare nella vendita per individuare potenziali clienti o, ancora, per studiare l’impatto di una campagna pubblicitaria. In ambito medico invece ha trovato un elevato interesse nell’individuazione delle espressioni facciali in sistemi automatici come sostegno nell’insegnamento nei soggetti affetti da autismo. La necessità di indagare l’iterazione uomo-macchina si trova anche nell’intrattenimento e nei computer game dove la diffusione di nuove tecnologie e piattaforme (es. Microsoft Kinect, Nintendo Wii, etc.) permette il tracciamento del movimento e l’iterazione di tutto il corpo, catturando performance cognitive ed emozionali.

Gli stati emotivi che tipicamente sono riconosciuti sono quelli definiti nel modello di Ekman che sono felicità, rabbia, tristezza, disgusto, paura e sorpresa. Ma non mancano studi su particolari stati come attenzione, fatica, dolore.

I sistemi di riconoscimento per la valutazione delle emozioni dalle espressioni facciali applicano due principali approcci: il riconoscimento diretto delle emozioni o riconoscimento per inferenza degli stati emotivi. Il primo approccio applica la tecnica del template matching e richiede l’esecuzione di due passi fondamentali:

codifica del volto attraverso delle feature, come landmark o immagini filtrate.
classificazione dell’espressione facciale rispetto una determinata emozione.

Il secondo approccio prevede l’uso della teoria di Ekman e il metodo di codifica Facial Action System Coding (FACS). Questo sistema di codifica serve a classificare i micro-movimenti dei muscoli facciali, detti Action Units (AU) e a descrivere qualsiasi movimento facciale come combinazione di AU. Il metodo di inferenza prevede tre fasi:

estrazione delle feature: si analizzano le singole parti del volto, quali sopracciglia, occhi, naso e bocca, per essere codificate in insiemi di punti o texture.
riconoscimento delle AU per identificare l’espressione facciale.
riconoscimento dello stato emotivo tramite inferenza a partire dalle AU individuate. Tipicamente in questa fase sono utilizzati dei prototipi matematici introdotti dallo stesso Ekman, ma sono utilizzati anche differenti sistemi di classificazione.

L’approccio sul template matching è quello che ottiene tipicamente migliori performance sui dataset standard, ma queste elevate performance portano ad avere delle controindicazioni. Il volto è codificato tramite un’immagine e questo comporta un elevato numero di parametri da considerare, quindi i tempi di elaborazione e la memoria necessaria per gli algoritmi che si basano su questo approccio sono superiori rispetto all’approccio basato sull’inferenza.

Un altro punto a svantaggio è legato alla classificazione. Per qualsiasi tipo di classificatore utilizzato (SVM o rete neurale) per la gran quantità di parametri sono necessari per l’addestramento molti campioni e quindi elevati tempi di addestramento.

Al contrario l’approccio basato su inferenza lavora su un numero inferiore di parametri, quindi minori tempi di elaborazione e addestramento del sistema e meno memoria necessaria.