Educare gli algoritmi
Il gruppo di ricerca
Il focus primario del gruppo di Intelligenza Artificiale Applicata che coordino, e a cui appartengo da più di 10 anni, è la ricerca di base sull’Intelligenza Artificiale con l’obiettivo di rendere fruibili all’industria le più recenti scoperte scientifiche e tecnologie attraverso la formazione di giovani talenti, il trasferimento tecnologico, e l’incubazione di spin-off.
Il nostro gruppo si compone di studenti, docenti e ricercatori che hanno, con diverse proporzioni, forti legami con industrie nazionali e internazionali (Hitachi Rail STS e Amazon) e sviluppano progetti di ricerca, principalmente nell’ambito Europeo (Horizon Europe).
Inoltre, il gruppo ha forti legami con diversi centri di ricerca nazionali (Istituto Italiano di Tecnologia, Università della Calabria, e Università di Padova) e internazionali (Università di Costanza in Germania, Università di Strathclyde in UK e NTU a Singapore).
La ricerca è stata sempre focalizzata sulla creazione di modelli predittivi “affidabili” sfruttando dati storici, attraverso tecnologie di Data Mining e Machine Learning, ed esperienza sul problema: lo scopo finale di questi modelli è quello di migliorare l'efficienza e l’automazione dei processi di decisione in ambienti complessi.
Un esempio di applicazione dei modelli predittivi
Un esempio che viene dagli USA è quello di utilizzare i dati storici di recidiva di reato di persone incarcerate e poi rilasciate per prevedere la probabilità di recidive per nuove scarcerazioni. In quel caso era necessario fare questa previsione in base al numero di condanne precedenti, all’età, al sesso, all’etnia e altre caratteristiche della persona.
Nell’esempio precedente conoscere le probabilità di recidiva è ovviamente fondamentale per sociologi, psicologi, avvocati, o decisori in generale per capire che regole costruire su questa probabilità di recidiva per decidere se rilasciare oppure no un condannato.
Ovviamente, per poter utilizzare un modello di questo genere, occorre che il modello predittivo sia affidabile.
L’importanza del concetto di “affidabilità”
La parola “affidabile”, nel campo dell’Intelligenza Artificiale, ha avuto una storia lunga e complessa. Il primo concetto di affidabilità è stato, per così dire, il più intuitivo, ossia fare in modo di garantire, in senso statistico, le performance in termini di accuratezza del modello previsionale.
Detto in parole semplici si garantisce un livello minimo di performance del modello stesso quando sarà utilizzato in produzione.
Su questo ho anche scritto un libro.
Più recentemente, con l’avvento degli algoritmi più evoluti – i cosiddetti algoritmi di deep learning –, il problema delle performance è diventato meno importante in quanto questi algoritmi sono oramai in grado di superare le performance umane.
Un esempio che ha fatto scalpore è stato l’algoritmo che ha battuto il campione mondiale di Go.
Per questo ci si è iniziati a fare una semplice domanda: se le macchine superano ormai le capacità umane emulandole, probabilmente le macchine rischiano anche di emulare i pregiudizi e i difetti dell’uomo e come l’uomo le macchine potrebbero essere indotte in errore.
Quindi l’affidabilità ha iniziato a prendere un altro significato. Possono le macchine garantire non solo performance tecniche (accuratezza, velocità, utilizzo di risorse) ma anche umane (equità, privacy, robustezza e interpretabilità)?
Anche l’Unione Europea ha lanciato un’azione coordinata sul tema.
Cosa si intende con “macchine più umane”?
Partiamo dall’esempio fatto poco fa sulla recidiva. Valutando le risposte dell'algoritmo si nota come lo stesso tende a predire rischio alto maggiormente per gli afroamericani. Questo è un preconcetto in quanto, come si vede dal grafico, la percentuale di afroamericani che hanno poi effettivamente reiterato il reato è uguale a quella degli altri. Questo significa che la macchina ha imparato non solo a predire ma ha anche imparato il pregiudizio presente nei dati storici.
Un altro esempio che ha fatto scalpore attraverso tutti i mezzi di stampa è il chatbot (un programma informatico capace di interagire vocalmente con l’utente) automatico addestrato da Microsoft sulle news di Twitter chiamato TAI.
Risultato? Un razzista!
Una cosa simile è successa anche ad Amazon, Google, IBM per il loro riconoscitore di volti che tende a funzionare peggio, e quindi a discriminare donne afroamericane (e ironicamente la ricercatrice in figura è colei che ha scoperto questa polarizzazione) e il cui uso per attività della polizia è stato quindi bannato.
theverge.com/2019/1/25/18197137/amazon-rekognition-facial-recognition-bias-race-gender
theguardian.com/technology/2021/jan/25/new-york-facial-recognition-technology-police
Un altro esempio è la facilità in cui si possono indurre in errore gli algoritmi come nei casi evidenziati in immagine: modifiche impercettibili per l’uomo possono indurre un algoritmo a riconoscere come una scimmia un panda o a scambiare un segnale di stop per un limite di velocità di 45mph.
Per questo è nata la necessità di rendere gli algoritmi più affidabili dal punto di vista umano, in particolare più:
- Equi: ossia che non discriminino sottogruppi nella popolazione in base al sesso, etnia, orientamenti politici o sessuali
- Privati: ossia che pur utilizzando i dati non violino la privacy dei singoli individui
- Robusti: ossia che non siano facilmente indotti in errore
- Autoesplicativi: ossia che diano una spiegazione comprensibile del perché si è presa una decisione, non solo la decisione finale.
L’interesse di Amazon e la vittoria dell’Amazon Research Award
Il mio gruppo di ricerca è stato uno dei primi a investire pesantemente sulla ricerca nell’ambito dell’affidabilità, con particolare riferimento prima all'accuratezza e poi alla privacy e alla fairness.
Siamo stati i primi a sviluppare algoritmi in grado di garantire performance in termini di equità e non solo in termini di accuratezza: i nostri risultati sono stati pubblicati sulle più rinomate conferenze e riviste internazionali del settore.
Per fare un esempio di seguito un risultato che abbiamo ottenuto recentemente: costruire un riconoscitore facciale equo, privato, e autoesplicativo.
Come si vede dalla figura il vecchio riconoscitore di volti tende a funzionare in maniera diversa tra maschi e femmine o in base al colore della pelle. Già solo il fatto di poter visualizzare il perché della risposta è importante. Dopo la modifica dell'algoritmo si vede come la macchina funzioni in maniera simile tra persone di sesso e colore diverso.
Inoltre, il nostro algoritmo è capace di imparare dai dati senza bisogno di avere le immagini in chiaro ma lavora su immagini criptate e quindi la privacy dei singoli individui è garantita.
Luca Oneto è Docente di Sistemi di elaborazione delle informazioni presso il DIBRIS.
Foto di copertina di Gerd Altmann da Pixabay