Qualche esempio di algoritmo quotidiano per capire quando lasciare la via vecchia per la nuova
La pancia brontola. Vai al ristorante italiano, che conosci e che ti piace, o al thailandese aperto da poco? Esci con il tuo migliore amico o organizzi una serata con una nuova conoscenza che vorresti approfondire? Troppo difficile decidersi, forse è meglio restarsene a casa. E allora, ti cucini una ricetta che hai già provato e che sai che funziona, oppure fai una ricerca su Internet per trovare nuova ispirazione? Lascia perdere, perché non ordinare una pizza? Prenderai la solita o chiederai qualche nuova specialità? Senza neanche essere arrivato al primo boccone, sei già esausto. E il pensiero di ascoltare della musica, guardare un film o leggere un libro – quale? – non ti sembra più così rilassante.
Ogni giorno dobbiamo costantemente scegliere tra opzioni che differiscono tra loro in un modo davvero specifico: proviamo qualcosa di nuovo o ci limitiamo a quello che preferiamo? Intuiamo che la vita è un bilanciamento tra novità e tradizione, tra l’ultima cosa e la migliore, tra il prenderci un rischio e il goderci quello che sappiamo che ci piace, ma proprio come per il dilemma del guarda-e-scegli, la domanda che rimane senza risposta è: qual è il bilanciamento?
Nel classico del 1974, Lo Zen e l’arte della manutenzione della motocicletta, Robert Pirsig depreca l’avviare di una conversazione con Che c’è di nuovo?, sostenendo che se diventa l’unica domanda rischia di produrre solo i detriti che causeranno l’ostruzione di domani. Sostiene allora che sia molto meglio iniziare con Che cosa c’è di meglio?.
Leggi anche: Che cos’è un algoritmo e come progettarlo
La realtà, però, non è così semplice. Ripensare al fatto che ogni canzone preferita o ogni ristorante tra quelli che ti piacciono di più all’inizio era soltanto qualcosa di nuovo ricorda che ci potrebbero essere lì fuori cose che non conosci e che potresti amare, e quindi che ciò che è nuovo è in effetti degno almeno di un po’ della tua attenzione.
Vecchi aforismi riconoscono questa tensione, ma non la risolvono. Fatti dei nuovi amici, ma tieniti stretti i vecchi o Non esiste vita così piena e speciale / che non lasci posto a un nuovo amico: sono idee piuttosto corrette, di certo la loro prospettiva è irreprensibile, ma non ci dicono niente di utile sulla proporzione di vecchio e nuovo che rende una vita ben vissuta.
Esplorare/sfruttare
Gli informatici hanno lavorato per trovare questo bilanciamento per più di cinquant’anni. Hanno anche dato un nome alla questione: la chiamano dilemma Explore/Exploit, cioè esplorare/sfruttare.
In inglese, e anche in italiano, le parole explore (esplora) e exploit (sfrutta) hanno connotazioni completamente opposte, ma per un informatico portano con sé significati molto più specifici e neutri. Detta in modo semplice, l’esplorazione è il raccogliere informazioni, mentre lo sfruttamento è l’utilizzare le informazioni che hai per arrivare a un buon risultato conosciuto.
È abbastanza intuitivo che non esplorare mai non sia un modo di vivere, ma vale anche la pena menzionare che non sfruttare mai quello che già conosci può essere altrettanto negativo. Preso nell’accezione dell’informatica, lo sfruttamento in realtà caratterizza molti dei migliori momenti della nostra vita. Una famiglia che si ritrova durante le vacanze è sfruttamento. Lo stesso vale per un amante della lettura che si sistema sulla poltrona con una tazza di caffè caldo e il suo libro preferito, o un gruppo che suona i suoi maggiori successi per una folla di fan adoranti, o due innamorati di lungo corso che ballano la loro canzone.
D’altra parte, l’esplorazione può essere una maledizione. Parte di ciò che ci piace della musica, per esempio, è che ci sia sempre qualcosa di nuovo da ascoltare, ma se sei un giornalista musicale parte di ciò che c’è di terribile nella musica è che c’è sempre qualcosa di nuovo da ascoltare.
Algoritmi e banditi multibraccia
Nell’informatica, la tensione tra esplorazione e sfruttamento assume la forma più concreta in uno scenario chiamato il problema del bandito multibraccia. Questo strano nome proviene dal termine colloquiale con cui ci si riferisce alle slot machine dei casinò: i banditi con un braccio solo. Immagina di entrare in un casinò pieno di slot machine, ciascuna con la sua probabilità di vincita. La difficoltà, ovviamente, sta nel fatto di non conoscere le probabilità in anticipo: fino a quando non giochi, non sai quali macchine siano le più vantaggiose (le loose, come le chiamano gli affezionati) e quali siano solo delle succhiasoldi.
Come è naturale, il tuo interesse è massimizzare le vincite totali, ed è chiaro che questo comporta una certa combinazione tra il tirare le leve di diverse slot machine per testarle (esplorare) e per poi preferire quelle più promettenti (sfruttare).
Per avere un’idea delle sottigliezze di questo problema, immagina di dover affrontare soltanto due slot machine. In una hai giocato per un totale di 15 volte; 9 volte hai vinto, 6 volte hai perso. Con l’altra hai giocato solo due volte: una hai vinto, una no. Quale delle due è più promettente?
Limitandosi a dividere le vittorie per il numero totale di giocate avrai il valore atteso di ciascuna, e seguendo questo metodo è evidente che la prima slot machine sia migliore: con un rapporto di 9 contro 6 il suo valore atteso è del 60 percento, mentre la seconda macchina, con 1-1, raggiunge solo il 50 percento. Tuttavia c’è dell’altro: dopotutto, due soli tentativi non sono granché, quindi si potrebbe sostenere che, in effetti, non sai quanto in realtà possa essere favorevole la seconda macchina.
La vita è un casinò
Scegliere un ristorante o un brano musicale è come decidere che leva tirare nel casinò della vita, ma comprendere il dilemma dell’Explore/Exploit non è soltanto un modo per migliorare le nostre scelte su cosa mangiare o ascoltare: ci fornisce anche degli spunti fondamentali su come i nostri obiettivi dovrebbero modificarsi con il passare degli anni, e sul perché il modo più razionale di comportarsi non sia sempre cercare di scegliere il meglio. Questo è centrale anche per, tra l’altro, il web design e i trial clinici, due cose che di norma non vengono menzionate nella stessa frase.
Le persone tendono a prendere decisioni isolate, a concentrarsi sul trovare ogni volta il risultato con il più alto valore atteso. Le decisioni però non sono quasi mai isolate, e il valore atteso non è il punto d’arrivo. Se pensi non solo alla prossima decisione, ma a tutte le decisioni che dovrai fare riguardo alle stesse opzioni in futuro, in questo processo il dilemma Explore/Exploit è cruciale. Così, scrive il matematico Peter Whittle, il problema del bandito incarna in una forma essenziale un conflitto evidente in tutte le azioni umane.
Quindi, quale delle due leve dovresti tirare? È una domanda complicata. Dipende del tutto da qualcosa che non abbiamo ancora discusso: la quantità di tempo che hai intenzione di trascorrere nel casinò.
Cogli l’intervallo
Carpe diem, esorta Robin Williams in una delle scene più memorabili del film del 1989 L’attimo fuggente. Cogliete l’attimo ragazzi. Rendete straordinaria la vostra vita.
È un consiglio davvero importante. Ed è anche qualcosa di autocontraddittorio. Cogliere l’attimo e cogliere una vita sono due attività del tutto differenti. C’è un modo di dire, Mangia, bevi e stai felice, perché domani morirai, ma forse dovrebbe esistere anche il suo contrario: Inizia a imparare una lingua o a suonare uno strumento, e chiacchera con gli estranei perché la vita e lunga e chissà che gioia può fiorire in così tanti anni. Quando bilanciamo le nostre esperienze preferite con quelle nuove, niente è più importante dell’intervallo in cui pensiamo di godercele.
È più probabile che provi un nuovo ristorante quando mi trasferisco in una città di quando sto per lasciarla, spiega il data scientist e blogger Chris Stucchio, un veterano degli studi sul dilemma Explore/Exploit, nel lavoro e nella vita.
Di solito frequento bar e ristoranti che conosco e che mi piacciono, perché so che molto presto dovrò lasciare New York. Invece, un paio di anni fa mi sono trasferito a Pune, in India, e, diamine, avrei mangiato in qualsiasi posto che non sembrasse destinato a farmi fuori. Poi, quando stavo per andarmene, sono tornato a provare i miei preferiti e ho smesso di cercare cose nuove… Anche se avessi trovato un posto un po’ migliore, ci sarei potuto andare soltanto una o due volte, quindi perché rischiare?
Una caratteristica del provare novità è che il valore dell’esplorazione, del trovare nuovi preferiti, può solo calare nel tempo poiché le possibilità di goderne diminuiscono. Scoprire un meraviglioso caffè nell’ultima notte in città non ti dà l’opportunità di poterci tornare.
L’altra faccia della medaglia è che il valore dello sfruttamento può solo aumentare nel tempo. Il più piacevole caffè che conosci oggi è, per definizione, perlomeno tanto piacevole quanto il più piacevole caffè che conoscevi il mese scorso. (E se nel frattempo hai trovato di meglio, lo sarà persino di più.) Quindi si deve esplorare quando si avrà il tempo per usare la conoscenza che ne deriva e sfruttare quando è ora di incassare. È il tempo a determinare la strategia.
Algoritmi per il cinema
Se questo è vero, però, è intrigante notare che, osservando la strategia, possiamo inferire l’intervallo di tempo. Prendi Hollywood, per esempio. Tra i dieci film coi maggiori incassi del 1981 solo due erano sequel. Nel 1991, erano tre. Nel 2001 erano cinque. E nel 2011, otto tra i dieci film dal maggior incasso erano sequel. In effetti, il 2011 ha segnato il record della più alta percentuale di sequel tra le uscite delle major. Poi il 2012 ha infranto subito il record. Nel dicembre 2012 il giornalista Nick Allen guardava con evidente spossatezza all’anno seguente:
Al pubblico verranno offerti una sesta razione di X-Men, più Fast and Furious 6, Die Hard 5, Scary Movie 5 e Paranormal Activity 5. Ci saranno anche Iron Man 3, Una notte da leoni 3 e le seconde uscite per i Muppets, i Puffi, G.I. Joe e Babbo bastardo.
Dal punto di vista di una casa di produzione, un sequel è un film con una base di fan garantita: una vacca da mungere, fieno in cascina, un exploit. E un sovraccarico di fieno in cascina segna un approccio di breve periodo, come quando Stucchio stava per lasciare la città. È probabile che quest’anno i sequel batteranno i film completamente nuovi, ma da dove verranno le serie amate del futuro? Una tale grandinata di sequel non è solo deplorevole (come pensano alcuni critici): in qualche modo è anche commovente. Entrando in una fase quasi del tutto concentrata sull’exploit, sullo sfruttamento, l’industria cinematografica sembra credere di essere vicina alla fine del proprio intervallo di tempo.
Uno sguardo all’economia del settore conferma quest’impressione. I profitti delle più grandi case cinematografiche sono scesi del 40 percento tra il 2007 e il 2011. Come sostiene l’Economist:
Pressati dalla crescita dei costi e dalla flessione dei ricavi, i grandi studios hanno risposto con film che avessero maggiore prospettiva di successo: di solito sequel, prequel o qualsiasi cosa che sfrutti personaggi già noti.
In altre parole, stanno tirando le leve delle migliori slot machine prima che il casinò li butti fuori.
Vinci-Resta, Perdi-Cambia
Trovare gli algoritmi ottimali che ci dicano esattamente come gestire il problema del bandito multi-braccia si è dimostrato molto sfidante. Infatti, come racconta Peter Whittle, durante la seconda guerra mondiale lo sforzo per risolvere la questione sfinì così tanto le energie e le menti degli analisti Alleati… che si suggerì di mandare il problema in Germania, come definitivo strumento di sabotaggio intellettuale.
Il primo passo verso una soluzione fu compiuto l’anno dopo la fine della guerra, quando il matematico della Columbia Herbert Robbins dimostrò che c’era una semplice strategia la quale, pur imperfetta, portava qualche vantaggiosa garanzia.
Robbins prese in considerazione proprio il caso in cui ci sono due slot machine e propose una soluzione chiamata algoritmo Vinci-Resta, Perdi-Cambia: scegli una leva a caso, e continua a tirarla finché vinci. Se la leva non ripaga dopo una giocata, allora passa all’altra. Benché questa semplice strategia sia lontana dall’essere una soluzione completa, Robbins provò nel 1952 che dava risultati molto migliori del procedere a caso.
Seguendo Robbins, una serie di articoli esaminò il principio dello stai sulla vincente. Intuitivamente, se vuoi tirare una leva e questa si rivela vincente, la vincita dovrebbe soltanto incrementare le tue stime sul suo valore, e come risultato dovresti essere più desideroso di tirarla di nuovo. Infatti Vinci-Resta si scopre essere un elemento della strategia ottimale per bilanciare esplorazione e sfruttamento in una vasta gamma di condizioni.
Tuttavia, per Perdi-Cambia la storia è diversa. Abbandonare una leva ogni volta che si perde è piuttosto avventato. Immagina di mangiare in un ristorante un centinaio di volte e che ogni volta ti venga servito un pasto meraviglioso. Sarebbe sufficiente un singolo caso di insoddisfazione per non andarci più? Le buone strategie non andrebbero troppo penalizzate per il fatto di non essere perfette.
Più significativamente, Vinci-Resta, Perdi-Cambia non tiene conto dell’intervallo di tempo che stai ottimizzando. Se il tuo ristorante preferito l’ultima volta ti ha scontentato, l’algoritmo dice che devi andare da un’altra parte anche se è l’ultima notte in città.
Comunque, il lavoro iniziale di Robbins sul problema del bandito multibraccia avviò un importante campo di studi e i ricercatori fecero significativi progressi nei pochi anni successivi. Richard Bellman, un matematico della RAND Corporation, trovò un’esatta soluzione del problema per i casi in cui sappiamo in anticipo e con esattezza quante opzioni e opportunità avremo in totale. Il trucco di Bellman fu essenzialmente lavorare a ritroso, iniziando con l’immaginare un’ultima giocata e considerando quali slot machine scegliere, dati tutti i possibili risultati delle decisioni precedenti. Una volta elaborato questo, si torna indietro alla penultima giocata, e poi alla precedente, e a quella prima ancora, e così via fino ad arrivare all’inizio.
Le risposte che emergono grazie a questo metodo sono a prova di bomba, ma con molte opzioni e molto tempo da passare nel casinò richiedono una vertiginosa, o impossibile, quantità di calcoli. Inoltre, se anche riuscissimo a calcolare tutti i possibili futuri, di certo non sapremo sempre esattamente quante opportunità (e opzioni) avremo. Per questo, il problema del bandito multibraccia rimase in effetti irrisolto. Come ha scritto Whittle, divenne velocemente un classico, e un sinonimo di difficoltà.
Questo articolo richiama contenuti da Algoritmi per la nostra vita.
Immagine di apertura di Markus Spiske su Unsplash.