Il termine Data Mining è basato sull’analogia delle operazioni dei minatori che scavano all’interno delle miniere grandi quantità di materiale di poco valore per trovare l’oro. Nel Data Mining, questo oro è l’informazione, precedentemente sconosciuta o indiscernibile; il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati.
John Ladley del Meta Group ha affermato Il Data Mining è un’estensione del Data Warehousing. È una sua evoluzione. Quindi non deve essere visto come un’alternativa alle analisi OLAP, ma come una tecnologia complementare, da usare soprattutto per la previsione automatizzata di trend e comportamenti, e per la scoperta automatizzata di relazioni altrimenti non conosciute.
Per il suo alto valore aggiunto, il Data Mining si sta diffondendo con una certa rapidità in numerosi settori merceologici, per la valorizzazione delle informazioni aziendali residenti sia nei sistemi operazionali che nei Data Warehouse.
Dove si costruisce il Data Mining?
Lo sviluppo di un sistema di Data Mining dovrebbe avvenire partendo da un Data Mart o un Data Warehouse già implementati in azienda, o comunque da ambienti certificati dove i dati siano stati regolarizzati, in modo che l’analisi possa essere fatta su dati accurati, integri e omogenei, il più possibile ripuliti da incongruenze che potrebbero influenzare la precisione dei risultati.
Partire da un Data Warehouse non è comunque indispensabile, perché alcuni tool hanno comunque la possibilità di preelaborare i dati, in modo da rendere più sicuri i risultati dell’analisi; in ogni caso, per chi deve operare con questi strumenti non guasta avere un po’ di familiarità con le problematiche di pulizia dei dati.
La maggior parte dei tool di Data Mining lavora in architettura client/server, e l’ambiente client può essere di ogni tipo. Per molti la piattaforma server ideale, dove far risiedere l’archivio, è un ambiente parallelo, high performance, dove vengono gestite facilmente le notevoli quantità di dati necessarie: numerose sono le aziende che li offrono, con diverse configurazioni che riescono a coprire tutte le esigenze e tutte le tasche.
Questi prodotti sono tutti in grado di lavorare con archivi dell’ordine di centinaia di gigabyte o di terabyte, e in ambienti dove sono presenti molti utenti: ciò è reso possibile grazie alle versioni più recenti, che hanno capacità di elaborazione parallela, di scalabilità spinta, di particolari funzioni di indexing e ad altre feature strutturali, necessarie per poter avere buone performance anche nelle query più complesse.
Nel Data Mining si mettono insieme sia tecniche esplorative sia confermative, in una logica ciclica: innanzitutto si sceglie che cosa studiare, si costruisce un modello matematico che tenti di spiegare gli impatti del variare del campione di input sui risultati, si verifica la sua robustezza e la sua correttezza, se non è soddisfacente ad una prima analisi si raffina il modello e si procede nuovamente al suo test, e così via fino a quando si ottengono dei risultati soddisfacenti.
Alla fine, quando il modello è sufficientemente accurato, lo si rende disponibile a tutti gli utenti interessati.
Nella fase di Problem (problema di business) si passano in rivista le informazioni di business o gli indicatori chiave che identificano il problema che si vuole conoscere meglio.
La fase di Model assolve al processo di comprensione delle relazioni tra i diversi fattori che influenzano il problema in esame per ottenere delle conoscenze approfondite. Infine, la fase di Plan comprende il processo di crescita della conoscenza ottenuta dall’analisi di fatti storici e dall’utilizzo del modello costruito nella fase di Model per formulare le linee guida che deve adottare l’azienda in riferimento al problema studiato.
Tecniche di analisi
Nel Data Mining, per scoprire le relazioni nascoste tra i dati e costruire di conseguenza dei modelli che le rappresentano, esistono due famiglie di tecniche di analisi o approcci: quelle di verifica e quelle di indagine, rispettivamente approccio top-down e approccio bottom-up. Spesso ci si riferisce a queste tecniche direttamente con il termine modelli e in tal caso si dirà rispettivamente modelli di verifica e modelli di scoperta.
Nell’approccio top-down, chi effettua l’analisi dei dati utilizzando la teoria statistica cerca durante l’esplorazione di trovare conferme a fatti che ipotizza o che già conosce (ad esempio quali fattori hanno prodotto un risultato conosciuto), o di ampliare la sua conoscenza su nuovi aspetti di un fenomeno che già conosce in parte.
A questo scopo si utilizzano le tecniche statistiche di clustering, l’analisi fattoriale, i metodi previsionali, per cui l’approccio risulta difficile da applicare se gli utenti non hanno buone conoscenze statistiche. Nell’approccio bottom-up l’utente si mette alla ricerca di informazioni utili che ignora, scavando fra i dati e collegamenti tra loro in modo non aprioristico, per costruire ipotesi, ad esempio quali fattori sono le cause più probabili che producono un certo risultato.
In questo caso è lo strumento (con la tecnologia delle reti neurali, degli alberi decisionali o altro) che deve essere in grado di guidare l’utente nel modo migliore nell’esplorazione dei dati alla ricerca di fatti utili.
Spesso è proprio quando la ricerca viene affidata direttamente ai tool che si può determinare la scoperta di nuove relazioni e segmentazioni fra i dati, altrimenti nemmeno immaginabili.
Una volta individuato un fatto nuovo, deve essere verificato con una tecnica di verifica precedente, dato che non è escluso di fare scoperte non valide.
Modello del business
Lo scopo principale dell’attività di Data Mining è produrre un modello, secondo una particolare tecnica di analisi, che formalizzi le non ovvie e irresistibili conoscenze di business individuate nei dati.
Un modello non è altro che la rappresentazione delle relazioni chiave che sono scoperte durante il processo di Data Mining. In pratica, è una topologia delle relazioni che mappa quali condizioni di input hanno influenza su specifiche condizioni di output e come alcune relazioni possono influenzare significativamente altre relazioni.
In modo formale, un modello è una formula matematica che spiega l’effetto degli input sugli output. Come tale, può essere raffinato e messo a punto per una maggiore precisione attraverso un processo iterativo di comprensione dei dati che sono alla sua base.
Una volta che il modello è stato creato e raffinato ad un accettabile grado di accuratezza, esso può essere usato in due modi:
- in modo descrittivo, permettendo agli utenti finali di studiare le relazioni scoperte tra i dati per migliorare la comprensione dei fattori chiave che influenzano il business;
- in modo predittivo, determinando la più probabile condizione di output associata agli input forniti.
Il modello di data mining può essere usato indipendentemente o in congiunzione con metodi di analisi dati tradizionali come query appoggiate a un data warehouse.
Se il modello svela che i clienti di una certa area demografica sono molto propensi ad acquistare uno specifico prodotto, allora una query selettiva appoggiata ad un data warehouse di probabili compratori può essere usata per generare un elenco di indirizzi promozionali.
Solitamente i modelli non svolgono egregiamente entrambi i ruoli, ma sono specializzati per l’una o per l’altra funzione. Modelli molto descrittivi e che svolgono sufficiente predizione sono ad esempio gli alberi decisionali, mentre le reti neurali forniscono predizioni altamente accurate con però scarse informazioni esplicative.
I modelli descrittivi istruiscono sulle relazioni sottostanti ai dati e forniscono informazioni del tipo un cliente che compra tre volte i tovaglioli è probabile che compri anche la birra, il peso e l’età, insieme, sono i più importanti fattori per la predizione della presenza della malattia x, famiglie con reddito tra 60.000 e 80.000 dollari e due o più automobili sono molto simili ad ogni altra famiglia senza figli e reddito tra 40.000 e 60.000 dollari e così via.
I modelli predittivi possono rispondere a domande del tipo questa è una transazione fraudolenta?, Quanto profitto fornirà questo cliente?, Quali dei miei clienti sono propensi a cambiare con i concorrenti?, Quale di queste famiglie risponderà alla diretta offerta per corrispondenza?, In quale parte del corpo è localizzata la parte principale del tumore di questo paziente? e così via.
Modellistica e tecnologie
Gli strumenti di Data Mining permettono analisi di tipo esplorativo o mediante modellistica avanzata.
Le analisi di tipo esplorativo danno una prima idea sulla struttura dei dati e dei possibili modelli (tecniche di analisi) che si possono applicare, e si basano su una visualizzazione multidimensionale, spesso in grado di far osservare tre o più dimensioni o variabili alla volta, che consente di rappresentare i dati all’utente in modo che possa percepire relazioni nascoste al loro interno.
La modellistica avanzata riguarda la forma funzionale che lega i dati, che permette di fare previsioni e simulazioni. Le tecnologie sulle quali si basano questi tool possono essere di diversi tipi: tra i più diffusi sono il clustering, gli alberi decisionali, le reti neurali, la fuzzy logic, gli algoritmi genetici.
Ogni tecnologia è adatta per la risoluzione di alcuni problemi, ma non può essere utilizzata per tutte le analisi, perché talvolta può avere dei limiti; per questo diversi tool combinano tra loro diverse tecnologie, in modo che l’utente possa scegliere la più opportuna per il tipo di problema da analizzare, o possa poi comparare i risultati ottenuti usando tecnologie diverse. L’attività di Data Mining prevede le seguenti fasi:
- identificazione del problema di business;
- valutazione dell’ambiente di Information Tecnology (IT);
- predisposizione dei dati in input;
- preparazione dei dati;
- Campionamento
- Esplorazione dei dati
- Consolidamento e pulizia
- Valutazione e selezione
- Trasformazione
- costruzione del modello;
- scelta dell’approccio da utilizzare,
- scelta della tecnologia,
- implementazione in uno specifico algoritmo di uno specifico tool,
- valutazione e interpretazione dei risultati,
- raffinamento del/i modello/i,
- scelta del modello finale,
- validazione esterna.
- dispiegamento delle regole (modello) nei processi decisionali;
- utilizzo delle nuove regole nelle business analysis (mining data);
- monitoraggio del modello;
- revisioni (eventuali) del modello.
Ad esempio i tool di SAS implementano la metodologia SEMMA (Sample, Explore, Modification, Model e Assess) mentre i tool di SPSS implementavano in passato la metodologia delle 5 A (Assess, Access, Analyze, Act e Automate) che si vedranno in seguito nella parte dedicata ai prodotti.
È da tenere presente che il più importante prerequisito per una scoperta della conoscenza con successo è la comprensione dei dati e del business. Senza questa comprensione, nessun algoritmo, sofisticato più che mai, fornirà i risultati aspettati. Senza questo background non si è capaci di identificare il problema che si vuole risolvere, preparare i dati per il data mining o interpretare correttamente i risultati.
Vuoi completare la lettura dell’articolo?
- leggi la seconda parte;
- leggi la terza parte;
- leggi la quarta e ultima parte.
L'autore
Corsi che potrebbero interessarti
Big Data Analytics - Iniziare Bene