Siamo circondati da assistenti vocali che promettono di rendere le nostre attività quotidiane più fluide, riducendo gli attriti con le interfacce dei nostri dispositivi tecnologici. Con l’aumentare della loro diffusione, però, rimane ancora un problema da risolvere: garantire che questi sistemi possano riconoscere e capire chiaramente la nostra voce, senza commettere errori.

Siri, Google Now, ed Alexa sono degli assistenti vocali che grazie all’intelligenza artificiale riescono ad esaudire ogni nostra richiesta — che si tratti di inviare un messaggio, acquistare un prodotto su Amazon o cercare una canzone, possiamo sempre fare affidamento a loro senza dover digitare sulle nostre tastiere.

Questi dispositivi sarebbero quindi da considerarsi del tutto intelligenti se non fosse che spesso commettono errori madornali, non riuscendo a comprendere le nostre parole e chiedendo di ripetere le frasi — se non addirittura comprendendo qualcosa di completamente diverso da quello che si è detto — per la frustrazione degli utenti che si trovano così a perdere tempo.

Per capire come poter risolvere questo problema, dobbiamo tenere a mente che la qualità degli assistenti vocali è indissolubilmente collegata alla qualità dei dati con cui sono stati addestrati gli algoritmi di intelligenza artificiale.

Recentemente, grazie all’impiego del deep learning, questi assistenti vocali sembrano migliorare ma purtroppo rimangono ancora problemi legati alla diversità linguistica dovuta ai numerosi dialetti ed accenti che rendono così difficile per le AI comprendere le nostre parole.

Per capire come poter risolvere questo problema, dobbiamo tenere a mente che la qualità degli assistenti vocali è indissolubilmente collegata alla qualità dei dati con cui sono stati addestrati gli algoritmi di intelligenza artificiale. Per poter addestrare queste AI è necessario avere accesso ad un archivio di dati sufficientemente ampio e che racchiuda al suo interno esempi che siano effettivamente collegati con situazioni reali — addestrare un assistente vocale con campioni di voci raccolte in uno studio di registrazione, ad esempio, non tiene in considerazione tutti i rumori ambientali che sono presenti mentre utilizziamo i nostri dispositivi quotidianamente.

Se non vi sono sufficienti dati che descrivono le più svariate situazioni in cui un utente può utilizzare l’assistente vocale, c’è chiaramente il rischio che la nostra voce non venga compresa correttamente — lo stesso vale per quei dialetti ed espressioni poco utilizzate che rischiano di tenere fuori una fetta importante di utenti.

Per questo motivo, Google e Mozilla hanno dato via a due rispettivi progetti per risolvere la mancanza di database utili per addestrare le intelligenze artificiali degli assistenti vocali.

Google ha rilasciato il suo Speech Commands Dataset che contiene oltre 65000 clip audio della durata di un secondo riguardo 30 diverse parole — fra cui cifre, indirizzi, e le parole “yes” e “no” — e sono stati prodotti da oltre mille persone diverse che hanno potuto contribuire direttamente attraverso il sito AIY — un altro progetto di Google che vuole aiutare le persone a produrre oggetti che usano l’intelligenza artificiale.

Commonvoice.png

Il progetto di Mozilla — l’organizzazione che sviluppa il browser Firefox — si chiama invece Common Voice ed ha l’obiettivo di creare un database a cui chiunque può contribuire liberamente semplicemente visitando il sito e parlando dal microfono del proprio computer o smartphone. Gli utenti possono contribuire sia leggendo una frase sia ascoltando le registrazioni già raccolte per valutarne l’accuratezza.

Inoltre, per arricchire gli audio di informazioni utili per le intelligenze artificiali, Mozilla chiede agli utenti di inserire anche dettagli demografici, come ad esempio età, sesso, e tipo di accento — quest’ultimo per ora è legato solamente alla lingua inglese, quindi sono presenti opzioni come inglese proveniente dalla Scozia.

Questi due progetti offrono quindi la possibilità di addestrare un sistema di riconoscimento vocale utilizzando dati ricchi dal punto di vista della diversità di accenti e di rumori ambientali, fornendo così degli esempi molto più rappresentativi della realtà in cui i dispositivi muniti di assistenti vocali si troveranno ad operare.

Avere libero accesso a tali database permette anche di aiutare lo sviluppo di nuovi prodotti poiché spesso le aziende che hanno già un ruolo affermato nel settore degli assistenti vocali non diffondono pubblicamente gli archivi delle registrazioni, come ad esempio nel caso di Apple con Siri — questo avviene sia per mantenere un controllo sul mercato ma anche per evitare che siano rivelate informazioni riservate degli utenti.

Questi due progetti, quindi, mettono direttamente in mano agli utenti la possibilità di migliorare le intelligenze artificiali dialogando proprio con i computer per far sì che, in futuro, l’intelligenza artificiale ci possa comprendere meglio.