Un fattore importante nello sviluppo degli algoritmi di intelligenza artificiale è la quantità e la tipologia di dati su cui gli algoritmi vengono allenati. In generale, gli algoritmi di machine learning richiedono un’ampia mole di dati su cui è possibile calibrare i parametri del software: ad esempio, quando vogliamo che un’AI sia in grado di riconoscere dei numeri, forniamo in ingresso dei dati che sono già stati classificati — all’immagine del numero 2 corrisponde quindi il valore numerico 2 — e l’algoritmo procede ad aggiustare autonomamente i parametri interni per far sì che i risultati combacino con quelli previsti.

Per garantire una maggiore accuratezza degli algoritmi è necessario quindi avere a disposizione una vasta gamma di dati di input, in modo da avere una copertura eterogenea di tutte le possibili varianti che si possono presentare: addestrare un sistema di riconoscimento facciale solo con immagini di individui dalla pelle bianca presenterà chiaramente dei risultati completamente errati quando l’algoritmo sarà chiamato a riconoscere la fotografia di una persona di colore.

Attualmente, vista l’esplosione di librerie software open source per creare algoritmi di intelligenza artificiale, non è difficile produrre la struttura di un’AI che sia in grado di riconoscere delle immagini o classificare gli oggetti. Purtroppo, però, l’unico limite rimane l’accuratezza dell’algoritmo, che sarà limitata dal numero di dati a cui ha avuto accesso durante la fase di addestramento.

Per poter garantire un accesso universale ai dati richiesti per addestrare le intelligenze artificiali è quindi essenziale che ci siano sempre più sforzi da parte di università e ricercatori nel raccogliere e mantenere database online.

Aziende come Google e Facebook, grazie alla vastità di utenti che utilizzano i loro strumenti, hanno a disposizione un’enorme quantitativo di dati su cui allenare le proprie AI: le immagini che carichiamo su Facebook e su cui inseriamo i tag dei nostri amici permettono al social network di allenare i suoi algoritmi di riconoscimento facciale.

Non tutte le aziende, però, possono permettersi strutture e mezzi per gestire la mole di dati che Google e Facebook acquisiscono quotidianamente e per questo motivo c’è il rischio di creare un monopolio anche nello sviluppo delle AI. L’unica soluzione per contrastare questa
dinamica e rendere più democratico lo sviluppo di intelligenze artificiali alla portata di tutti i centri di ricerca è la diffusione di database online liberamente accessibili.

Visual Genome è uno dei vari database che permettono di avere accesso a dati su cui far addestrare le proprie reti neurali artificiali: sul sito sono presenti oltre 100 mila immagini le cui diverse componenti sono direttamente descritte con il linguaggio umano.

La possibilità di creare una connessione fra le immagini ed il linguaggio per descriverne il contenuto è fondamentale per i sistemi di riconoscimento delle immagini, permettendo cosìdi avere delle AI in grado di comprendere il contesto, le azioni che si svolgono, e le relazioni fra i vari oggetti che compongono una foto.

VisualGenome.png

Sempre rimanendo nell’ambito del riconoscimento dei soggetti nelle immagini, uno dei più famosi, longevi, ed ampi database è ImageNet, un sito che offre ai ricercatori un archivio di immagini che sono descritte utilizzando diversi sinonimi o frasi simili. Ci sono 100.000 gruppi
di sinonimi e termini simili e per ciascuno di essi sono presenti circa 1.000 immagini. Si possono effettuare ricerche di piante, fiori, mammiferi, fino ad arrivare nello specifico delle singole specie e razze.

ImageNetCarnivore.png

Recentemente anche Google ha reso libero l’accesso ai dati raccolti dalla sua piattaforma QuickDraw, un’AI che era in grado di riconoscere l’oggetto disegnato direttamente dall’utente. In questo database sono presenti infatti oltre 50 milioni di disegni e schizzi di oggetti quotidiani prodotti direttamente dagli utenti stessi.

Questa scelta di Google è comunque in controtendenza rispetto il comportamento delle altre aziende che stanno sviluppando AI e che tengono segretamente custoditi i propri dati — e ricordiamoci che Google è stata in grado di attrarre gli utenti ad utilizzare QuickDraw grazie al fatto che la sua AI era già addestrata ottimamente e forniva risultati eccellenti, affascinando così gli utenti.

Per poter garantire un accesso universale ai dati richiesti per addestrare le intelligenze artificiali è quindi essenziale che ci siano sempre più sforzi da parte di università e ricercatori nel raccogliere e mantenere database online: al momento, sebbene sia possibile produrre linee di codice perfette per una rete neurale, è altamente impossibile mettere insieme un archivio di dati senza avere a disposizione un ampio bacino di utenti già costituito in precedenza.


ImageNet e Visual Genome sono quindi due importanti strumenti che permettono di migliorare e rendere più democratico lo sviluppo delle AI e la lista di archivi è destinata ad aumentare.