Passare dal machine learning all’intelligenza generativa è questione di probabilità
Il concetto di probabilità ci permette di ragionare in presenza di incertezza. È un po’ ostico anche per i più bravi fra noi. Il dilemma di Monty Hall è l’esempio migliore di come l’incertezza possa mettere a soqquadro la nostra mente. Il problema, che prende il nome dal conduttore del programma televisivo americano Let’s Make a Deal, nel 1990 diventò una sorta di ossessione pubblica, dopo che un lettore della rubrica Ask Marilyn, della rivista Parade, fece la seguente domanda alla giornalista Marilyn vos Savant:
Immaginiamo di partecipare a un gioco a premi e di poter scegliere fra tre porte. Dietro una delle tre porte c’è un’auto, dietro le altre delle capre. Scegliamo una porta senza aprirla, per esempio la nunero 1, e il conduttore, che sa cosa c’è dietro ogni porta, apre una delle altre due, per esempio la numaro 3, che nascondeva una capra. Poi ci chiede: ‘Preferisci la numero 2?’ È vantaggioso per noi cambiare la nostra scelta?
La persona che sta giocando è posta di fronte a un dilemma. Cambia la sua scelta dalla porta numero 1 alla porta numero 2? C’è qualche vantaggio nel farlo, nel senso che aumenteranno le probabilità di scegliere la porta che nasconde l’auto? Prima di esaminare la risposta di vos Savant, proviamo ad affrontare il problema da soli. Ecco la mia risposta intuitiva: prima che il conduttore apra una delle porte, la probabilità che dietro la porta che ho scelto (la porta numero 1) ci sia un’auto è pari a un terzo. Ma poi il conduttore apre la porta numero 3 e rivela il fatto che dietro c’è una capra. Ora ci sono due porte chiuse e dietro una di esse c’è l’auto. Ritengo che l’auto abbia le stesse probabilità di trovarsi dietro l’una o l’altra porta. Non c’è motivo di cambiare la mia scelta.
Potremmo aver ragionato in modo simile o meno. Complimenti se non lo abbiamo fatto. Ecco cosa consigliava vos Savant riguardo all’opportunità di cambiare la propria scelta:
Sì, dovresti cambiare. La prima porta ha un terzo di possibilità di vincere, ma la seconda porta ha due terzi di possibilità di vincere.
Gli americani si indignarono, e non solo quelli che non erano esperti nelle sfumature della teoria delle probabilità. Come scrive il matematico Anthony Lo Bello in un saggio su quello scontro:
Poco dopo, Savant ricevette una valanga di critiche da ricercatori di diverse università americane, che la rimproveravano per aver dato, come sostenevano, la risposta sbagliata; quei ricercatori, tre dei quali vennero citati nel numero del 2 dicembre 1990 della rivista Parade, sostenevano che una volta che il conduttore aveva aperto la terza porta, sia la prima che la seconda porta avevano una probabilità di vincita pari a ½”.
Savant mantenne la sua posizione e fornì ai critici diversi modi per arrivare alla sua stessa conclusione. Una delle sue migliori argomentazioni intuitive richiede di considerare una situazione diversa. Supponiamo che ci siano un milione di porte e che dietro una di esse ci sia un’automobile; tutte le altre nascondono delle capre. Scegliamo la porta numero 1. C’è una possibilità su un milione che abbiamo vinto. Il conduttore apre quindi tutte le altre porte che non abbiamo scelto, tranne una. Ora ci sono due porte non aperte, quella che abbiamo scelto e quella che il conduttore ha lasciato chiusa. Certo, quest’ultima porta potrebbe nascondere una capra. Ma di tutte le porte che il padrone di casa ha scelto di non aprire, perché ha scelto proprio quella? Opteremmo subito per quella porta, non è vero?, scrisse vos Savant.
Il matematico Keith Devlin ne diede un’altra interpretazione.
Mettiamo un paravento davanti alla scelta, la porta numero 1, e un altro paravento davanti alle porte numero 2 e 3 insieme. Il paravento davanti alla porta numero 1 ha un terzo di probabilità di nascondere l’auto. Il paravento davanti alle porte numero 2 e numero 3 ha una probabilità di due terzi di nascondere l’auto. Poi il conduttore apre una delle porte nascoste dal paravento più grande, per rivelare una capra. La probabilità di due terzi di tale paravento si concentra tutta sulla porta non aperta. Scambiare la porta è la scelta migliore.
Ma il vero punto è questo: è impossibile affidarsi all’intuizione per risolvere questo problema, perché è molto facile concepirlo in modo leggermente diverso e convincersi che non si dovrebbe cambiare la propria scelta. Proprio come è successo a me.
Nel suo libro Which Door Has the Cadillac? (in italiano, Quale porta ha la Cadillac?), il matematico ungherese Andrew Vázsonyi scrisse sull’incapacità di un altro matematico ungherese, Paul Erdős, probabilmente il matematico più prolifico del XX secolo, sia per il numero di problemi che ha risolto sia per il numero di problemi che ha convinto altri ad affrontare, di concordare sul fatto che cambiare porta sia l’opzione migliore. Mentre Erdős era in visita a Vázsonyi nel 1995, i due discussero del dilemma di Monty Hall. Quando Vázsonyi disse a Erdős che cambiare porta aumentava le probabilità di vittoria, Erdős si rifiutò di accettare quell’idea: Si comportò come se fosse stato appena punto da un’ape. No, è impossibile, disse. Non dovrebbe fare alcuna differenza se si cambia”. Vázsonyi cercò di convincerlo che le probabilità non sono statiche, che cambiano al variare del contesto. Erdős non si lasciò convincere. Alla fine, Vázsonyi utilizzò un programma informatico da lui scritto per eseguire centomila simulazioni del gioco e dimostrò che il conduttore del programma televisivo vinceva due terzi delle volte se non si cambiava la propria scelta, mentre il conduttore perdeva e si vinceva due terzi delle volte se si cambiava la porta. Erdős obiettò che non ne capiva ancora il motivo, ma si convinse a malincuore che avevo ragione, scrive Vázsonyi.
Leggi anche: I tre diversi tipi di machine learning e a che cosa servono
In questo racconto sul dilemma di Monty Hall è racchiusa la storia di un’eterna disputa tra due modi di pensare alla probabilità: quello frequentista e quello bayesiano. Il primo approccio, che fa uso della simulazione, è quello che apparentemente convinse Erdős. La nozione frequentista della probabilità di accadimento di un evento (per esempio, una moneta che si rivela testa) consiste semplicemente nel dividere il numero di volte in cui l’evento si verifica per il numero totale di prove (nel nostro esempio il numero totale di lanci della moneta). Quando il numero di prove è piccolo, la probabilità dell’evento può essere molto lontana dal suo valore reale, ma quando il numero di prove diventa molto grande, si ottiene la misura corretta della probabilità. Di seguito sono riportati i risultati di diecimila prove effettuate sul dilemma di Monty Hall: lo scienziato Paul van der Laken ci mostra la differenza nelle probabilità di vittoria se si cambia e se non si cambia la scelta. Questa è una versione.
Si vede chiaramente che quando il numero di prove è piccolo, le probabilità fluttuano molto. Si assestano sui valori corretti quando le prove superano le quattromila: 0,67, cioè due terzi, nel caso in cui si cambi la scelta fatta e 0,33, cioè un terzo, in caso contrario.
Ma le simulazioni non sono l’unico modo per rispondere a questo tipo di quesiti. Un altro approccio è quello di affidarsi al teorema di Bayes, una delle pietre miliari della teoria della probabilità e, di fatto, dell’apprendimento automatico.
Bayes o non Bayes?
Vi è una deliziosa ironia nel fatto che l’anno di nascita di Thomas Bayes sia incerto. Si dice che sia nato nel 1701 con una probabilità pari a 0,8. La data della sua morte, tuttavia, è stata stabilita con certezza: 17 aprile 1761, a Royal Tunbridge Wells in Inghilterra. Due anni dopo la sua dipartita, un amico intimo, Richard Price, di ventidue anni più giovane, presentò un documento alla Royal Society a nome di Bayes. Bayes e Price erano simili: intellettuali, ministri dissenzienti e, naturalmente, matematici. Price scrisse una lettera, con annesso un saggio, datata 10 novembre 1763, all’amico John Canton, il quale lesse quella corrispondenza alla Royal Society il 23 dicembre: An Essay Towards Solving a Problem in the Doctrine of Chances. Anche se Price attribuì il saggio a Bayes, gli studiosi hanno stimato che Price abbia dato un contributo sostanziale al suo contenuto. Nel 1764 Price presentò un altro saggio sull’argomento alla Royal Society, questa volta come autore unico. L’insieme di questi contributi cementò lo status di Bayes come l’uomo che donò alla scienza il suo teorema omonimo, che diede vita a un intero modo di pensare riguardo alla probabilità e alla statistica e che ora, quasi 250 anni dopo, è diventato una forza della natura nell’ambito dell’apprendimento automatico. Il teorema di Bayes ci offre un modo per trarre conclusioni, con rigore matematico, nel campo dell’incertezza.
È meglio cercare di capire questo teorema con un esempio concreto. Consideriamo un test per una qualche malattia, che si manifesta solo in circa 1 persona su 1.000. Supponiamo che il test abbia un’accuratezza del 90 percento. Significa che risulta positivo nove volte su dieci quando la persona ha la malattia e negativo nove volte su dieci quando la persona non ha la malattia. Ovvero, produce dei falsi negativi il 10 percento delle volte e dei falsi positivi il 10 percento delle volte. Per semplicità, in questo esempio consideriamo uguali il tasso di veri positivi (la sensibilità del test) e il tasso di veri negativi (la specificità). Nel mondo reale possono anche essere diversi. Adesso immaginiamo di fare il test su un paziente e che il risultato sia positivo. Qual è la probabilità che abbia la malattia? Supponiamo che il soggetto sottoposto al test sia stato scelto a caso dalla popolazione.
La maggior parte di noi risponderebbe il 90 per cento, perché il test è accurato 9 volte su 10. Ma ci sbaglieremmo. Per calcolare l’effettiva probabilità di avere la malattia in presenza di un test positivo, dobbiamo prendere in considerazione altri fattori. A questo scopo, possiamo utilizzare il teorema di Bayes, o della probabilità condizionata.
Il teorema ci permette di calcolare la probabilità che un’ipotesi H (avere la malattia) sia vera, data l’evidenza E (il test è positivo).
Questo si scrive P(H|E): la probabilità di H dato E.
Il teorema di Bayes dice:
Consideriamo i vari termini sul lato destro dell’equazione.
- P(H): probabilità che una persona scelta a caso dalla popolazione abbia la malattia. Questa è anche chiamata probabilità a priori (prima di prendere in considerazione qualsiasi esito). Nel nostro caso, possiamo assumere che sia 1/1000, ovvero 0,001, sulla base di quanto osservato finora nella popolazione generale.
- P(E|H): La probabilità dell’esito data l’ipotesi o, in parole povere, la probabilità di risultare positivi al test se si ha la malattia. La conosciamo: è la sensibilità del test: 0,9.
- P(E): la probabilità di risultare positivi al test. È la somma delle probabilità di due diversi modi in cui una persona può risultare positiva al test, data la diffusione della malattia nella popolazione. La prima è la probabilità a priori di avere la malattia (0,001) moltiplicata per la probabilità di risultare positivi al test (0,9), che equivale a 0,0009. La seconda è la probabilità a priori di non avere la malattia (0,999) moltiplicata per la probabilità di risultare positivi al test (0,1), che equivale a 0,999.
Quindi: P(E) = 0,0009 + 0,0999 = 0,1008
Perciò: P(H|E) = 0,001 × 0,9 / 0,1008 = 0,0089, ovvero 0,89 percento di possibilità.
Si tratta di una probabilità molto più bassa del 90 percento intuito in precedenza. Questo numero finale è chiamato probabilità a posteriori, o condizionata: è la probabilità a priori aggiornata in base alle evidenze. Per avere un’idea di come la probabilità a posteriori cambi con l’accuratezza del test o con le variazioni del tasso di diffusione della malattia nella popolazione, diamo un’occhiata ad alcuni numeri.
Con un’accuratezza del test del 99 percento, vale a dire che solo 1 test su 100 dà un falso positivo o un falso negativo, e una diffusione di fondo della malattia nella popolazione pari a 1 su 1.000, la probabilità di essere affetti dalla malattia in caso di test positivo sale a 0,09. Si tratta di una probabilità quasi pari a 1 su 10.
Per un tasso di accuratezza del test sempre pari al 99 percento, ma con un tasso di diffusione della malattia nella popolazione pari a 1 su 100 (la malattia è ora più comune), la probabilità di avere la malattia in presenza di un test positivo sale a 0,5. È una probabilità del 50 percento.
Migliorando l’accuratezza del test al 99,9 percento e mantenendo il tasso di diffusione a 1 su 100, otteniamo una probabilità condizionata pari a 0,91: se il test è positivo, c’è un’alta probabilità di avere la malattia.
Dopo questa breve introduzione al teorema di Bayes, siamo pronti ad affrontare il problema di Monty Hall. Si tratta di una trattazione un po’ complessa, quindi sentitevi liberi di saltare questa sezione, anche se è piuttosto istruttivo vedere come il teorema di Bayes ci porti alla medesima conclusione di Marilyn vos Savant.
Partiamo dall’ipotesi che l’auto sia nascosta in modo casuale dietro una delle tre porte.
Iniziamo con l’enunciare la nostra ipotesi e i nostri a priori. Scegliamo la porta numero 1. Il conduttore apre la porta numero 3, dietro la quale si trova una capra. Dobbiamo capire se vale la pena cambiare la nostra scelta dalla porta numero 1 alla porta numero 2, per massimizzare la probabilità di scegliere la porta che nasconde l’auto. Per farlo, dobbiamo calcolare le probabilità nei due casi e scegliere la più alta tra le due.
La prima ipotesi è: l’auto si trova dietro la porta numero 1, dato che il conduttore ha aperto la porta numero 3 e ha rivelato la presenza di una capra. La seconda ipotesi è: l’auto si trova dietro la porta numero 2, dato che il conduttore ha aperto la porta numero 3 e ha rivelato una capra.
Consideriamo la probabilità della prima ipotesi:
P (H = l’auto si trova dietro la porta numero 1 | E = il conduttore ha aperto la porta numero 3, che ha rivelato una capra).
Dal teorema di Bayes:
P(E|H): probabilità che il conduttore apra la porta numero 3, dato che l’auto si trova dietro la porta numero 1. All’inizio del gioco abbiamo scelto la porta numero 1. Se l’auto è dietro di essa, il conduttore può vederla e, quindi, può scegliere tra due porte da aprire, la numero 2 o la numero 3, che nascondono entrambe delle capre. La probabilità di aprire una delle due è semplicemente 1/2.
P(H): probabilità a priori che l’auto si trovi dietro la porta numero 1, prima che venga aperta qualsiasi porta. È pari a 1/3.
P(E): probabilità che il conduttore apra la Porta numero 3. Questa deve essere valutata con attenzione, dato che il conduttore sa che abbiamo scelto la porta numero 1 e dato che può vedere cosa c’è dietro ogni porta. Quindi:
P(il conduttore sceglie la porta numero 3) = P1 + P2 + P3
Dove:
P1 = P(l’auto è dietro la porta numero 1) × P(il conduttore sceglie la porta numero 3, dato che l’auto è dietro la porta numero 1) = P(C1) × P(H3|C1)
P2 = P(l’auto è dietro la porta numero 2) × P(il conduttore sceglie la porta numero 3, dato che l’auto è dietro la porta numero 2) = P(C2) × P(H3|C2)
P3 = P(l’auto è dietro la porta numero 3) × P(il conduttore sceglie la porta numero 3, dato che l’auto è dietro la porta numero 3) = P(C3) × P(H3|C3)
Consideriamo le componenti del lato destro di ciascuna equazione.
Nel caso di P1: P(C1) × P(H3|C1)
P(C1) = P(l’auto è dietro la porta numero 1) = 1/3.
P(H3|C1): se l’auto è dietro la porta numero 1, la probabilità che il conduttore apra la porta numero 3 è pari a 1/2. Si sarebbe potuto scegliere o la porta numero 2 o la porta numero 3.
Quindi:
P1 = 1/3 × 1/2 = 1/6.
Per P2: P(C2) x P(H3|C2).
P(C2) = P (l’auto è dietro la porta numero 2) = 1/3.
P(H3|C2): se l’auto si trova dietro la porta numero 2, allora la probabilità che il conduttore apra la porta numero 3 è pari a 1, perché non può scegliere la porta numero 2, altrimenti scoprirebbe l’auto.
Quindi:
P2 = 1/3 × 1 = 1/3
Per P3: P(C3) × P(H3|C3).
P(C3) = P (l’auto è dietro la porta numero 3) = 1/3.
P(H3|C3): se l’auto è dietro la porta numero 3, la probabilità che il conduttore apra la porta numero 3 è 0, altrimenti rivelerebbe l’auto.
Quindi:
P3 = 1/3 × 0 = 0
Pertanto:
P(E) = P1 + P2 + P3 = 1/6 + 1/3 + 0 = 3/6 = 1/2
Possiamo quindi calcolare la probabilità che l’ipotesi 1 sia vera, date le evidenze:
La probabilità che l’auto si trovi dietro la porta che abbiamo scelto è pari a 1/3.
Ora calcoliamo la probabilità della seconda ipotesi: l’auto si trova dietro la porta numero 2, dato che il conduttore ha aperto la porta numero 3, rivelando una capra. Possiamo fare un’analisi simile alla precedente.
P(E|H): probabilità che il conduttore apra la porta numero 3, dato che la macchina è dietro la porta numero 2. Il conduttore non può aprire la porta numero 2. Deve aprire la porta numero 3, quindi la probabilità di questo evento è pari a 1.
P(H): probabilità a priori che l’auto si trovi dietro la porta numero 2, prima che venga aperta qualunque porta. È pari a 1/3.
P(E): come calcolato in precedenza, è pari a 1/2.
È evidente che la seconda ipotesi, ovvero che l’auto si trovi dietro la porta numero 2, sapendo che il conduttore ha aperto la porta numero 3, ha una probabilità maggiore rispetto alla probabilità che l’auto si trovi dietro la porta numero 1 (la nostra scelta iniziale). Dovremmo cambiare porta!
Se tutto questo ci sembra controintuitivo e ci rifiutiamo di cambiare la nostra scelta riguardo alle porte, è assolutamente comprensibile. Le probabilità non sono necessariamente intuitive. Ma se sono le macchine a incorporare questo tipo di ragionamento nelle decisioni che prendono, la nostra intuizione non è certo d’intralcio.
Perché è importante
La maggior parte dell’apprendimento automatico è intrinsecamente probabilistica, anche se gli algoritmi non sono esplicitamente progettati per esserlo. Ma questa nozione si perde nella miriade di affermazioni riguardo alle capacità della moderna intelligenza artificiale.
Siamo arrivati a un concetto essenziale dell’apprendimento automatico: bisogna considerarlo in termini di probabilità, distribuzioni e statistica.
Questo articolo richiama contenuti da Perché le macchine imparano.
Immagine di apertura originale di Naser Tamimi su Unsplash.