In questo articolo:
- È partita una nuova corsa all’oro
- Per fare buon data mining bisogna imparare a trasformare i dati
- Puoi partire dalle basi della data science in modo semplice
- Niente meglio di Python per fare machine learning
- Python può esserti utile in qualsiasi percorso della data science
- Puoi praticare data science con Python in qualunque campo
- I campioni di data science sono campioni di big data analytics
- La data science è già presente anche nel marketing
- Data science: ne parlano tutti
È partita una nuova corsa all’oro
Avranno esagerato sull’Economist a scrivere che i dati sono il nuovo petrolio? Non del tutto; ci sono paralleli interessanti. Come il petrolio, la ricchezza dei dati è nascosta e va estratta. Le nuove trivelle, più ecologiche, si chiamano algoritmi e linguaggi di programmazione, come Python. Sempre come il petrolio, più si affina la tecnologia, più si trovano risposte anche dove sembravano non essercene. Diventare estrattori, di conoscenza o di idrocarburi, è una professione vera e richiede impegno. Fortunatamente esistono ottime risorse per facilitare l’inizio e impostare bene lo studio.
Per fare buon data mining bisogna imparare a trasformare i dati
Il data mining è l’inizio della data science: per ragionare sui dati, servono dati opportunamente preparati all’analisi e quindi la capacità di elaborarli per estrarne informazioni altrimenti non visibili. Le modifiche applicate ai dati per fare emergere risultati utili sono dette trasformazioni.
Come spiega Giuseppe Moschese, esistono due possibili approcci: top-down e bottom-up. Nel primo si cercano conferme a fatti noti (per esempio quali fattori hanno prodotto un risultato conosciuto); nel secondo si cercano informazioni utili scavando fra dati e collegamenti tra loro, per costruire ipotesi, per esempio quali fattori sono le cause più probabili che producono un certo risultato. Lo scopo principale del data mining è produrre un modello che rappresenti bene le relazioni emerse tra i dati. Può trattarsi di un modello descrittivo (un cliente che compra tre volte i tovaglioli è probabile che compri anche la birra) oppure predittivo (quale di queste famiglie risponderà all’offerta di vendita per corrispondenza?).
I dati vanno preparati prima di ottenere risultati
Una volta definiti gli obiettivi della ricerca, bisogna preparare i dati. Contrariamente al pensiero comune, conta più avere dati buoni di avere tanti dati. Molto spesso, infatti, si procede per campionamento e si suddividono i dati in tre (o più) sottoinsiemi, uno per il training, uno per la validazione del modello e uno per i test. Spesso il quarto sottoinsieme viene aggiunto a scopo di controllo.
La pre-elaborazione dei dati tra machine learning e analisi statistica
Le trasformazioni applicabili al modello sono di due tipi.
- Modificazioni matematiche alla distribuzione delle variabili.
- Creazione di nuove variabili dalla combinazione di variabili esistenti.
Al primo tipo appartengono:
- l’eliminazione degli effetti degli outlier (dati maligni isolati che alterano il comportamento del campione);
- la facilitazione dell’interpretazione dei dati mediante schemi di discretizzazione o di elaborazione logaritmica.
Il secondo comprende invece la creazione di:
- variabili più rappresentative di quelle esistenti;
- termini che descrivono la variazione dei dati nel tempo;
- discretizzazione dei dati tramite range (per esempio raggruppando i dati in due gruppi 1 e 0 se si lavora su una rete neurale, oppure alto, medio e basso se i dati riguardano fasce di reddito);
- trasformazioni matematiche, per esempio logaritmiche o polinomiali, utili per normalizzare la base di dati;
- conversioni da testo a numerico, per esempio assegnando un codice a valori testuali se il tool a disposizione impone l’uso di numeri.
Dopo che i dati sono stati preparati, selezionati e trasformati, si è pronti a procedere con il data mining.
Il lavoro del data miner non ha fine
Quando tutte le premesse sono a posto, inizia un lavoro ciclico di affinamento, monitoraggio e revisione dei dati. Come spiega Giuseppe Moschese:
Si esaminano quali input hanno forte impatto sugli output, quali hanno poco impatto, quali non hanno impatto, e quali input, se combinati con altri input, hanno un forte impatto rispetto a quando sono presi da soli (congiunzione). Si cercano nuove intuizioni nelle relazioni cause-ed-effetti nei dati, si usano più dati, si includono nuovi elementi di dati, si eliminano dati che non hanno impatto, si estendono o si diminuiscono gruppi di dati per ottenere tutte le possibili intuizioni.
Puoi partire dalle basi della data science in modo semplice
Come spiega Sinan Ozdemir nel suo libro Data Science, per lavorare in questa disciplina sono necessarie competenze matematiche e di programmazione, più l’esperienza. Il campo è ancora apertissimo a nuovi contributi perché la maggior parte delle persone possiede una o magari due di queste competenze, ma non tutt’e tre. E il libro aiuta a superare questo ostacolo nel modo più semplice possibile. Certo, è il primo passo. E qualcosa proprio non si può studiare, come sottolinea l’autore:
Per diventare data scientist bisogna essere pazienti, perché la data science non funziona sempre come pensavamo e occorre provare e riprovare. La pazienza non si impara studiando, ma è un requisito base.
Se sei particolarmente curioso riguardo Data Science, puoi anche scoprire come abbiamo pensato la sua copertina.
Niente meglio di Python per fare machine learning
Il machine learning, l’apprendimento automatizzato, è una delle branche della data science più in auge e Python è facile da approcciare, completo, con una forte comunità a dare supporto. Non è necessario essere programmatori o ingegneri del software per fare machine learning con Python e puoi iniziare a lavorare immediatamente se segui le indicazioni di Sebastian Raschka nel suo Machine Learning con Python. Puoi anche partire da progetti piccoli, se non da una passiona personale. Senti che cosa ci ha dichiarato l’autore:
Sono un grande appassionato di calcio e ho applicato il machine learning alla costruzione di modelli per predire gli esiti dell’equivalente inglese del Fantacalcio. È stato un progetto divertente che mi ha permesso di imparare molto. I miei modelli non erano perfetti ma, nella media, certamente più precisi delle mie previsioni improvvisate.
A proposito di passioni, in Machine Learning con Python Raschka fa un esempio di lavoro con Internet Movie Database (IMDB), il database universale dedicato al cinema. È un libro che ha meritato tutta la nostra attenzione in ogni dettaglio, a partire dalla copertina.
Python può esserti utile in qualsiasi percorso della data science
Con Python hai un linguaggio di programmazione straordinariamente versatile e la data science ha campi di applicazione vastissimi. Praticamente sono fatti l’uno per l’altra. Lo mostra bene Dmitry Zinoviev, autore di Data Science con Python e di vari articoli apparsi su Apogeonline. Zinoviev è uno schietto che ti fa notare, per esempio, come la vita sia una incessante esperienza di data science anche se non lo sai, oppure ti consiglia di lasciare stare il linguaggio R perché, se sei cresciuto come programmatore, imparare R può essere una tortura. Inoltre è per formazione un fisico, che però consiglia una preparazione in statistica a tutti i data scientist (compresi quelli che si occuperanno di fisica).
Puoi praticare data science con Python in qualunque campo
Niente è meglio dell’esempio per imparare e, più interessanti sono gli esempi, più viene voglia di impegnarsi. Puoi scoprire, per dire, come usare Python per predire le classifiche dei gironi di un torneo sportivo internazionale oppure analizzare un forum di appassionati di una serie televisiva imparando nel frattempo tecniche di analisi di dominî culturali e iniziando a familiarizzare con le librerie di Python specifiche per il lavoro sui dati prima di ricavare risultati concreti dal campione di dati raccolto e ripulito.
Una curiosità: lo sapevi che il machine learning viene applicato negli Archivi Segreti Vaticani per aiutare il computer a leggere la scrittura a mano degli atti e dei documenti delle epoche più antiche?
I campioni di data science sono campioni di big data analytics
Nelle aziende, la scienza dei dati si interseca con i big data e la domanda di persone capaci di mettere insieme le due cose supera largamente la disponibilità. La data science è una fonte di ottimi posti di lavoro. Andrea De Mauro ha scritto per noi di come la Big Data analytics trasformi le aziende e le carriere e, per chi desidera approfondire, un libro intero sull’argomento, dove si parla tra l’altro di come:
- conoscere i Big Data e sfatare i miti che li circondano;
- iniziare a usare un tool specifico come KNIME;
- gestire dati con agilità ed efficacia;
- scoprire come impara una macchina;
- applicare i metodi base del machine learning;
- costruire modelli di predizione;
- normalizzare i dati e creare cluster.
De Mauro ha anche descritto, in un articolo dedicato ai fondamenti dei Big Data, quali siano le competenze più ricercate nelle aziende e quale sia la loro funzione:
- Analista di business (o business analyst, data analyst): l’interfaccia tra le funzioni aziendali tradizionali (come marketing, vendite, acquisti e così via) e il mondo dei dati.
- Data scientist: identifica i giusti modelli e algoritmi da utilizzare in base all’esigenza e, all’occasione, modifica e riscrive metodi analitici esistenti, se non ne crea da zero.
- Sviluppatore: progetta, sviluppa e gestisce il software applicativo per l’utilizzo dei Big Data in azienda.
- Tecnico sistemista (o data engineer o system engineer): disegna, implementa e mantiene operativa tutta l’infrastruttura tecnologica a supporto della data analytics.
È importante una precisazione: le competenze di data analytics in azienda non possono essere patrimonio esclusivo di data scientist e analisti. Per poter collegare le opportunità dei Big Data alle esigenze di business servirà che tutti in azienda (a partire da chi la dirige) siano in grado di parlare di questi temi e abbiano una certa conoscenza di base di potenzialità e limiti dei vari metodi analitici.
La data science è già presente anche nel marketing
Se hai letto AI Marketing, sai già che intelligenza artificiale, machine learning, Big Data e data science sono usciti dai laboratori e dalle software house, per diventare materia essenziale persino nel marketing. Steven Struhl, l’autore, ha scritto per noi diversi articoli che puoi leggere per avvicinarti al tema e iniziare a farti un’idea su diversi aspetti.
- L’analisi dei dati è già talmente sofisticata che talvolta non sappiamo come un algoritmo arrivi ai risultati che presenta.
- Data science come premessa all’esclusione degli umani dalle decisioni importanti? Tutt’altro: senza la competenza e l’attenzione umana, rischiamo di sprecare tempo macchina per ottenere analisi inutili di dati scorretti. La competenza conta, molto.
- Capire che cosa intendiamo esattamente per intelligenza artificiale applicata al marketing (non è così scontato).
- Risolviamo il problema di Monty Hall con una rete di Bayes: ci sono tre porte chiuse, una ha dietro un premio, prova a indovinarla. Ti apro una delle porte che perdono, ne restano due. Cambi la tua scelta iniziale?
Data science: ne parlano tutti
Al termine di questa chiacchierata ci concediamo un pizzico di orgoglio. La scienza dei dati, oggi, sbuca da ogni angolo. Ma ad anticiparne l’avvento sono stati pochi e c’eravamo anche noi. Nel 2001.
L'autore
Corsi che potrebbero interessarti
Big Data Analytics - Iniziare Bene
Big Data Executive: business e strategie