di Simone Cosimi

Quake III Arena è uscito nel lontano 1999. Si tratta di uno sparatutto in prima persona sviluppato da Id Software e pubblicato da Activision. Ne è passata di acqua sotto i ponti nel mondo dei videogame: vent’anni, per il gaming, sono tantissimi. Eppure, secondo i ricercatori di DeepMind – la società britannica fondata nel 2011, acquisita da Google nel 2014 e divenuta l’epicentro della ricerca sull’intelligenza artificiale di Big G – le dinamiche di quel classico, come di molti simili o nati sulla sua scia, hanno le carte in regola per un compito importante: addestrare i loro algoritmi a dare il meglio di se stessi. E soprattutto a imparare il gioco di squadra anche con gli esseri umani.

DeepMind colleziona d’altronde da anni risultati invidiabili in questo campo. Nel maggio 2017, per esempio, l’intelligenza artificiale di Mountain View ha battuto il numero uno al mondo di Go, il gioco risalente all’antica Cina (si trattava, all’epoca del 19enne cinese Ke Jie). Ancora prima, sempre nello stesso gioco da tavolo, aveva messo k.o. il primatista europeo Fan Hui. Alla fine, appena un anno fa, una nuova versione del software, ribattezzata AlphaGo Zero, ha dimostrato di non avere neanche più bisogno di pescare informazioni da un database di partite svolte dai giocatori in carne e ossa. Gli bastavano infatti milioni di match contro se stesso. Come punto di partenza, si leggeva nell’indagine pubblicata su Nature, gli erano state date solo le regole del gioco.

Adesso si cambia piano. L’intelligenza artificiale ha sfruttato il videogame d’antan, ma neanche troppo, nella modalità “Capture the Flag”. Anche se in parte modificata con una mappa che cambiava in modo dinamico da una sfida all’altra per aumentare il livello di difficoltà a spingere l’AI di Google a “pensare”, o almeno comportarsi, come avrebbe fatto un giocatore in carne e ossa. Senza dunque memorizzare la mappa del gioco ma acquisendo le dinamiche generali d’azione grazie al machine learning. Il punto chiave dell’esperimento, al di là delle regole del gioco fornite in gran parte acquisite anche in questo caso strada facendo, è stato appunto capire come questi sistemi riuscissero ad adattarsi oltre che alle mappe allo stile di azione dei compagni di squadra e dei nemici. Con l’obiettivo, questo l’interesse scientifico di fondo, di cooperare oppure di eliminare gli altri giocatori a seconda delle squadre.

La modalità multigiocatore “Capture The Flag” di Quake III, infatti, funziona così: le due squadre partono dalla propria base, devono arrivare a quella degli avversari e rubare la bandiera del quartier generale nemico. Ovviamente difendendo al contempo il proprio vessillo dagli speculari tentativi di conquista degli avversari. Gli scienziati puntavano dunque a verificare la capacità delle loro reti neurali di puntare al massimo della cooperazione: “Messa a punto della strategia, comprensione tattica e gioco di squadra previsti dai videogame in multiplayer rappresentano una sfida cruciale per la ricerca nel settore – si legge non a caso nelle note degli scienziati – adesso, tramite nuovi sviluppi nel cosiddetto apprendimento per rinforzo, i nostri agenti hanno fatto segnare prestazioni paragonabili a quelle umane in Quake III Arena, un complesso ambiente multigiocatore e uno dei classici giochi in prima persona 3D. Questi agenti dimostrano l’abilità di unirsi sia fra intelligenze artificiale che con giocatori in carne e ossa”.

Nel dettaglio, l’apprendimento per rinforzo è un metodo di apprendimento automatico legato appunto al rinforzo, cioè all’uso di una ricompensa che valuta l’efficacia di quanto è stato fatto rispetto a un preciso parametro di riferimento. Fuori dai tecnicismi, quel che si nasconde in fondo a questo esperimento è il tema della società: “Miliardi di persone abitano il pianeta – confermano infatti i cinque ricercatori autori dell’indagine – ciascuno con i propri obiettivi individuali e le proprie azioni. Ma tutti sono in grado di unirsi in squadre, organizzazioni e società creando prove impressionanti di intelligenza collettiva”. I videogame sono stati scelti proprio perché, come si spiegava, pongono sfide notevoli in termini di strategia, tattica, addestramento, coordinazione e gioco di gruppo.

Abbiamo addestrato intelligenze in grado di imparare e agire individualmente ma che dovevano essere in grado di giocare anche in squadra con o contro agli utenti, umani o artificiali” si legge nel documento. Il test è interessante per il mondo dell’AI anche sotto altri punti di vista: anziché addestrare un singolo algoritmo alla volta il folto gruppo di esperti coinvolti ha allevato un gruppo di “agenti”, come si chiamano in gergo, che hanno imparato giocando gli uni con gli altri e inserendosi o contrapponendosi in una serie di squadre amiche e avversarie. Non solo: ogni agente ha migliorato le proprie prestazioni dal proprio segnale di rinforzo l’esito di ogni partita, che fosse vinta o persa e, infine, gli agenti sono stati fatti giocare in due differenti velocità, in modo da migliorare la loro abilità di usare la memoria e produrre significative azioni in sequenza.

Di questa specie di campionato di Quake III hanno fatto parte anche 40 giocatori umani che sono stato distribuiti a caso insieme o contro le intelligenze artificiali. Il risultato? Il primo e più sconvolgente è che le intelligenze artificiali di DeepMind hanno messo a segno tempi di reazione molto rapidi e strategie piuttosto accurate, il che spiega gli ottimi risultati raggiunti nelle diverse partite studiate. Ma il punto di svolta è stato appunto verificare come gli agenti abbiamo sfoderato atteggiamenti paragonabili a quelli degli esseri umani fra cui quelli di seguire i compagni di squadra nel corso delle spedizioni o prendere posizione nella base dei nemici, accampandosi nei dinsotrni. Nel contempo, anche la cooperazione con i compagni di squadra si faceva più stretta e raffinata.

Il fronte della cooperazione fra AI è dunque aperto. Altre ricerche hanno per esempio dimostrato risultati importanti in altri videogame come StarCraft II e Dota 2. In questo secondo caso, pure molto recente, le protagoniste sono state cinque intelligenze artificiali sviluppate da OpenAI, un’organizzazione non-profit finanziata tra gli altri anche dal vulcanico Elon Musk. ‎Si trattava però di macchine contro uomini: cinque reti di tipo LSTM (Long Short Time Memory), un tipo di rete neurale ricorsiva in grado di “memorizzare” alcuni valori per un certo periodo di tempi spinta a migliorarsi, proprio come nel caso di DeepMind, tramite un sistema di ricompense.

Nel complesso, al di là dei titoli utilizzati per gli esperimenti con gli “algoritmi videogamer”, i risultati di questo apprendimento cognitivo e collaborativo sono di portata ben più ampia e capire come queste intelligenze riescano a muoversi in ambienti complessi (mentre imparano da sole, come si è visto in passato, ma anche dalle loro controparti umane come dimostra quest’ultimo caso) è un patrimonio per tutto il settore. “In futuro vorremmo migliorare i nostri metodi di apprendimento per rinforzo destinati a popolazioni di agenti” hanno spiegato Max Jaderberg e colleghi. Ne sono passati di anni da quando la stessa DeepMind faceva giocare – anzi, insegnava ad apprendere – le sue intelligenze artificiali ai semplici Pong o Space Invaders su un emulatore dell’Atari 2600.