Da modelli mediocri, uno migliore

Il mistero degli ensemble nell’analisi dei dati

di

thumbnail

27

ott

2017

Hanno un ruolo molto chiaro e capacità di restituire risultati straordinari. Solo che non si capisce perché.

[Riproduciamo un articolo di Steven Struhl, autore per Apogeo di AI Marketing, disponibile in tutte le librerie fisiche e digitali. Il post originale, The Mystery of Ensembles in Data Analysis, si può reperire sul sito KoganPage].

Gli ensemble possono apparire misteriosi a più di un lettore. La musica c’entra poco, il resto rimane un enigma. Sistemiamo almeno la questione del vocabolo. Usato nell’analisi dei dati, il termine si riferisce a molti metodi che uniscono le stime di un numero consistente di modelli in una media o mediante un procedimento di voting. Che cosa effettivamente facciano questi metodi, peraltro, resta in larga parte oscuro.

I metodi ensemble si basano su una delle scoperte principali del machine learning: la media di molti modelli indifferenti o deboli è tipicamente migliore di un qualunque singolo modello. I metodi ensemble lavorano di norma su decine o centinaia di modelli e ne ricavano un consenso.

Lavora bene e non lo sa

Gli ensemble condividono una proprietà sconcertante: possono svolgere lavori sorprendenti e nel contempo trasmettere poco o nulla di intelligibile rispetto a ciò che stanno veramente facendo. Dobbiamo fidarci della adeguatezza dei mezzi impiegati per raggiungere il risultato. Questa fiducia è attestata dalle operazioni in una macchina deve confrontarsi con il mondo reale. L’esempio preminente oggi è il veicolo a guida autonoma. Ti porta a casa in sicurezza o si perde, si ferma o causa un incidente. In base a come si comporta capiamo se e quanto funziona il complesso delle sue stime.

Quando guidiamo in mezzo ai dati, tuttavia, i risultati sono tipicamente più ambigui. Supponiamo per esempio di avere messo a punto un recommendation engine diabolicamente abile. (Sono gli algoritmi che suggeriscono acquisti su siti come Amazon o Netflix). Dato che la maggioranza delle persone non si affanna a comprare né segue ogni raccomandazione, come facciamo esattamente a giudicare la bontà del lavoro svolto rispetto a un livello teorico di perfezione?

Vai a capire

Si potrebbero allestire gare tra l’output del recommendation engine, un paniere generato casualmente, l’elenco dei prodotti più acquistati e le scelte di un esperto (umano). Anche se l’engine vincesse, però, non sapremmo se né quanto sarebbe distante da un qualche comportamento ottimale. Al momento, in molte applicazioni concrete, sembra impossibile determinare l’entità del divario tra le prestazioni effettive e un ipotetico meglio assoluto. Peggio; sono già state effettuate comparazioni come quella appena ipotizzata e, tolto il paniere casuale sconfitto in partenza, non è emerso un vincitore chiaro.

Quando ci troviamo alle prese con una previsione quantitativa, come gli acquisti dei cereali per la colazione, possiamo eseguire test di validazione di tipo hold-out sample o cross-fold. Questi metodi considerano una parte del dataset, la mettono da parte e poi costruiscono il modello sul resto dei dati. Dopo di che lo collaudano sui dati che erano rimasti da parte.

Difetti preziosi

L’idea è che il metodo hold-out sample non possederà tutte le peculiarità e irregolarità presenti nella porzione dei dati utilizzati nella creazione del modello. Predire le irregolarità dei dati anziché le loro relazioni significative viene detto overfitting. Si presume che testare in questa maniera fornirà qualche idea di come il modello si comporterà nel mondo esterno.

In AI Marketing – predire le scelte dei consumatori con l’intelligenza artificiale abbiamo trattato svariati metodi ensemble. Uno di essi, chiamato Decorate, si è comportato straordinariamente bene nel predire l’esito del test di un modello di validazione cross-fold. In effetti è stato il metodo migliore di tutti quelli che abbiamo messo alla prova.

AI Marketing

Funziona bene, ma non sappiamo troppo perché.

 

Solo che non abbiamo alcuna idea, se non per sommi capi, di che cosa faccia realmente. Questo metodo prevede numerosi passaggi. Per prima cosa esegue un modello di qualche tipo e ottiene predizioni; poi esamina i risultati e aggiunge un altro piccolo set di dati artificiali al dataset di partenza. Questo secondo set contraddice il primo in alcuni punti. L’insieme di dati originali e contraddittori richiede qualche aggiustamento del primo modello, che poi produce una predizione. La procedura aggiunge altri dati artificiali e viene eseguita ancora, e ancora e ancora, fino a quando soddisfa una certa condizione predefinita che la interrompe.

Efficacia empirica

Il lavoro sulla notevole diversità che si ottiene nella combinazione di dati concreti e dati artificiali riesce a generare modelli predittivi robusti. Tuttavia tutto quello che possiamo fare è salvare la procedura per applicarla a un altro dataset. Non esiste un modello da esaminare per contrapporlo al senso comune, come si può fare con altri metodi come le reti bayesiane o i classification tree.

Abbiamo inoltre trattato il metodo random forest, che può restituire una solida lettura di quanto le variabili influiscano sull’esito o sull’oggetto dell’osservazione. Vengono eseguiti centinaia di classification tree, nei quali predittori e persone vengono inseriti ed esclusi in modo casuale dal modello. Alla fine tutti i classification tree contribuiscono a votare l’esito finale. Le innumerevoli variazioni occorse ci permettono di ottenere una buona predizione e anche una buona idea degli effetti delle variabili. Anche se non potremmo esaminare centinaia di tree e cogliere qualcosa di almeno vagamente comprensibile.

Che vuoi farci

L’usare o meno gli ensemble dipende dai propri obiettivi. Per spremere fino all’ultima goccia di precisione predittiva senza preoccuparsi di che cosa stia effettivamente dentro il modello, può essere la strada giusta. Se invece si desidera conservare la capacità di confrontare il modello con quanto sappiamo già o riteniamo di sapere, forse è meglio ricorrere a qualcosa di più trasparente, per esempio i tanti metodi basati sulla regressione oppure i classification tree e le reti bayesiane di cui abbiamo già parlato.




Steven Struhl è un analista e un consulente con oltre venticinque anni di esperienza nella progettazione e nello sviluppo di modelli statistici applicati al comportamento dei consumatori. Utilizzando l'analisi testuale e il data mining, il suo lavoro si focalizza su come le decisioni di acquisto vengono prese, con il fine ultimo di ottimizzare prodotti e servizi. È stato docente universitario di Statistica e partecipa come speaker a conferenze e seminari dedicati al pricing, i modelli decisionali, la segmentazione di mercato e la presentazione dei dati.

In Rete: https://www.koganpage.com/author/steven-struhl

Letto 1.303 volte | Tag: , , , , , , , ,

Lascia il tuo commento