di Valerio Millefoglie

“Mi hanno addestrato a un’unica cosa ma non ho niente per cui combattere”, dice con voce sofferta e preoccupata Finn, il cui nome da Soldato Imperiale è FN-2187, alla platea di spettatori di Star Wars: Il risveglio della forza. In quel momento, e mentre le astronavi volteggiano fra i laser, che espressioni fanno gli spettatori? E con quali occhi, i bambini al cinema, su poltrone più grandi di loro, vedono Mowgli e la pantera Bagheera inginocchiarsi per mostrare rispetto al passaggio degli elefanti, i veri creatori della giungla?

La domanda, posta in modo ancora più preciso, gioca sull’anticipare i tempi, ovvero: che espressioni farà un dato spettatore alla visione di una data immagine? Ed è possibile creare una mappa di emozioni correlate alle immagini sullo schermo, in modo da usare queste conoscenze predittive per aiutare a rendere più realistiche le scene dei film di animazione? Ecco i quesiti da cui sono partiti i ricercatori dell’università canadese Simon Fraser, guidati da Greg Mori, professore di Computing Scienze. Come sviluppare un novo modo di valutazione e previsione delle espressioni facciali dei film? Il gruppo ha lavorato con il California Institute of Techonology e la Disney Research utilizzando i cosiddetti FVAEs, degli algoritmi informatici capaci di analizzare automaticamente immagini e video.

L’esperimento si è svolto sottoponendo più di 3.179 spettatori alla visione di 150 film, fra cui Star Wars e Il libro della giungla. Durante la suddetta visione ogni singolo soggetto era monitorato attraverso una telecamera a raggi infrarossi che ne inquadrava i movimenti facciali: sono stati tracciati nello specifico 16 milioni di punti che contribuiscono a creare le espressioni. “La nostra attenzione si è concentrata su precisi punti di riferimento, come l’angolo della bocca o lo sbattere delle palpebre”, ha spiegato Greg Mori. Markus Gross, il vicepresidente della Disney Research, ha invece dichiarato: “Siamo tutti immersi nei dati, quindi è fondamentale trovare delle tecniche che identifichino i modelli. La nostra ricerca dimostra che le tecniche di apprendimento profondo utilizzate dalle reti neurali, che hanno rivoluzionato il settore dell’intelligenza artificiale, sono efficaci anche nell’acquisizione di modelli nascosti”. Nella pratica, questi modelli possono essere spiegati raccontandoli come un’immensa biblioteca dei volti: la ricerca ha analizzato nelle espressioni del singolo, le espressioni universali. Da qui, la fase predittiva: sapere con precisione come uno spettatore reagirà a una precisa scena.

Yisong Yue, del California Institute of Technology, fra gli istituti che hanno partecipato alla ricerca, ha detto: “Capire il comportamento umano è fondamentale per sviluppare sistemi di intelligenza artificiali che mostrino una maggiore intelligenza comportamentale e sociale. Ad esempio, lo sviluppo di sistemi AI per assistere al monitoraggio e alla cura degli anziani si basa sull’essere in grado di raccogliere i segnali del linguaggio non verbale degli altri. Dopo tutto, la gente non dice sempre in modo esplicito come si sentono, se sono infelici o se hanno qualche problema”. Il lato oscuro della forza, forse non sarà più oscuro.