FINO AL 30 SETTEMBRE TUTTI GLI EBOOK COSTANO LA METÀ

Scegli il tuo ebook e risparmia!
Home
Data Science: a cosa serve e come funziona

03 Luglio 2019

Data Science: a cosa serve e come funziona

di

I dati sono la nuova ricchezza, a patto di saperli consultare per estrarre da loro le risposte che ti servono.

In questo articolo:

È partita una nuova corsa all’oro

Avranno esagerato sull’Economist a scrivere che i dati sono il nuovo petrolio? Non del tutto; ci sono paralleli interessanti. Come il petrolio, la ricchezza dei dati è nascosta e va estratta. Le nuove trivelle, più ecologiche, si chiamano algoritmi e linguaggi di programmazione, come Python. Sempre come il petrolio, più si affina la tecnologia, più si trovano risposte anche dove sembravano non essercene. Diventare estrattori, di conoscenza o di idrocarburi, è una professione vera e richiede impegno. Fortunatamente esistono ottime risorse per facilitare l’inizio e impostare bene lo studio.

Per fare buon data mining bisogna imparare a trasformare i dati

Il data mining è l’inizio della data science: per ragionare sui dati, servono dati opportunamente preparati all’analisi e quindi la capacità di elaborarli per estrarne informazioni altrimenti non visibili. Le modifiche applicate ai dati per fare emergere risultati utili sono dette trasformazioni.

Come spiega Giuseppe Moschese, esistono due possibili approcci: top-down e bottom-up. Nel primo si cercano conferme a fatti noti (per esempio quali fattori hanno prodotto un risultato conosciuto); nel secondo si cercano informazioni utili scavando fra dati e collegamenti tra loro, per costruire ipotesi, per esempio quali fattori sono le cause più probabili che producono un certo risultato. Lo scopo principale del data mining è produrre un modello che rappresenti bene le relazioni emerse tra i dati. Può trattarsi di un modello descrittivo (un cliente che compra tre volte i tovaglioli è probabile che compri anche la birra) oppure predittivo (quale di queste famiglie risponderà all’offerta di vendita per corrispondenza?).

I dati vanno preparati prima di ottenere risultati

Una volta definiti gli obiettivi della ricerca, bisogna preparare i dati. Contrariamente al pensiero comune, conta più avere dati buoni di avere tanti dati. Molto spesso, infatti, si procede per campionamento e si suddividono i dati in tre (o più) sottoinsiemi, uno per il training, uno per la validazione del modello e uno per i test. Spesso il quarto sottoinsieme viene aggiunto a scopo di controllo.

La pre-elaborazione dei dati tra machine learning e analisi statistica

Le trasformazioni applicabili al modello sono di due tipi.

  1. Modificazioni matematiche alla distribuzione delle variabili.
  2. Creazione di nuove variabili dalla combinazione di variabili esistenti.

Al primo tipo appartengono:

  • l’eliminazione degli effetti degli outlier (dati maligni isolati che alterano il comportamento del campione);
  • la facilitazione dell’interpretazione dei dati mediante schemi di discretizzazione o di elaborazione logaritmica.

Il secondo comprende invece la creazione di:

  • variabili più rappresentative di quelle esistenti;
  • termini che descrivono la variazione dei dati nel tempo;
  • discretizzazione dei dati tramite range (per esempio raggruppando i dati in due gruppi 1 e 0 se si lavora su una rete neurale, oppure alto, medio e basso se i dati riguardano fasce di reddito);
  • trasformazioni matematiche, per esempio logaritmiche o polinomiali, utili per normalizzare la base di dati;
  • conversioni da testo a numerico, per esempio assegnando un codice a valori testuali se il tool a disposizione impone l’uso di numeri.

Dopo che i dati sono stati preparati, selezionati e trasformati, si è pronti a procedere con il data mining.

Il lavoro del data miner non ha fine

Quando tutte le premesse sono a posto, inizia un lavoro ciclico di affinamento, monitoraggio e revisione dei dati. Come spiega Giuseppe Moschese:

Si esaminano quali input hanno forte impatto sugli output, quali hanno poco impatto, quali non hanno impatto, e quali input, se combinati con altri input, hanno un forte impatto rispetto a quando sono presi da soli (congiunzione). Si cercano nuove intuizioni nelle relazioni cause-ed-effetti nei dati, si usano più dati, si includono nuovi elementi di dati, si eliminano dati che non hanno impatto, si estendono o si diminuiscono gruppi di dati per ottenere tutte le possibili intuizioni.

Puoi partire dalle basi della data science in modo semplice

Come spiega Sinan Ozdemir nel suo libro Data Science, per lavorare in questa disciplina sono necessarie competenze matematiche e di programmazione, più l’esperienza. Il campo è ancora apertissimo a nuovi contributi perché la maggior parte delle persone possiede una o magari due di queste competenze, ma non tutt’e tre. E il libro aiuta a superare questo ostacolo nel modo più semplice possibile. Certo, è il primo passo. E qualcosa proprio non si può studiare, come sottolinea l’autore:

Per diventare data scientist bisogna essere pazienti, perché la data science non funziona sempre come pensavamo e occorre provare e riprovare. La pazienza non si impara studiando, ma è un requisito base.

Se sei particolarmente curioso riguardo Data Science, puoi anche scoprire come abbiamo pensato la sua copertina.

Niente meglio di Python per fare machine learning

Il machine learning, l’apprendimento automatizzato, è una delle branche della data science più in auge e Python è facile da approcciare, completo, con una forte comunità a dare supporto. Non è necessario essere programmatori o ingegneri del software per fare machine learning con Python e puoi iniziare a lavorare immediatamente se segui le indicazioni di Sebastian Raschka nel suo Machine Learning con Python. Puoi anche partire da progetti piccoli, se non da una passiona personale. Senti che cosa ci ha dichiarato l’autore:

Sono un grande appassionato di calcio e ho applicato il machine learning alla costruzione di modelli per predire gli esiti dell’equivalente inglese del Fantacalcio. È stato un progetto divertente che mi ha permesso di imparare molto. I miei modelli non erano perfetti ma, nella media, certamente più precisi delle mie previsioni improvvisate.

A proposito di passioni, in Machine Learning con Python Raschka fa un esempio di lavoro con Internet Movie Database (IMDB), il database universale dedicato al cinema. È un libro che ha meritato tutta la nostra attenzione in ogni dettaglio, a partire dalla copertina.

Python può esserti utile in qualsiasi percorso della data science

Con Python hai un linguaggio di programmazione straordinariamente versatile e la data science ha campi di applicazione vastissimi. Praticamente sono fatti l’uno per l’altra. Lo mostra bene Dmitry Zinoviev, autore di Data Science con Python e di vari articoli apparsi su Apogeonline. Zinoviev è uno schietto che ti fa notare, per esempio, come la vita sia una incessante esperienza di data science anche se non lo sai, oppure ti consiglia di lasciare stare il linguaggio R perché, se sei cresciuto come programmatore, imparare R può essere una tortura. Inoltre è per formazione un fisico, che però consiglia una preparazione in statistica a tutti i data scientist (compresi quelli che si occuperanno di fisica).

Puoi praticare data science con Python in qualunque campo

Niente è meglio dell’esempio per imparare e, più interessanti sono gli esempi, più viene voglia di impegnarsi. Puoi scoprire, per dire, come usare Python per predire le classifiche dei gironi di un torneo sportivo internazionale oppure analizzare un forum di appassionati di una serie televisiva imparando nel frattempo tecniche di analisi di dominî culturali e iniziando a familiarizzare con le librerie di Python specifiche per il lavoro sui dati prima di ricavare risultati concreti dal campione di dati raccolto e ripulito.

Una curiosità: lo sapevi che il machine learning viene applicato negli Archivi Segreti Vaticani per aiutare il computer a leggere la scrittura a mano degli atti e dei documenti delle epoche più antiche?

I campioni di data science sono campioni di big data analytics

Nelle aziende, la scienza dei dati si interseca con i big data e la domanda di persone capaci di mettere insieme le due cose supera largamente la disponibilità. La data science è una fonte di ottimi posti di lavoro. Andrea De Mauro ha scritto per noi di come la Big Data analytics trasformi le aziende e le carriere e, per chi desidera approfondire, un libro intero sull’argomento, dove si parla tra l’altro di come:

  • conoscere i Big Data e sfatare i miti che li circondano;
  • iniziare a usare un tool specifico come KNIME;
  • gestire dati con agilità ed efficacia;
  • scoprire come impara una macchina;
  • applicare i metodi base del machine learning;
  • costruire modelli di predizione;
  • normalizzare i dati e creare cluster.

La data science è già presente anche nel marketing

Se hai letto AI Marketing, sai già che intelligenza artificiale, machine learning, Big Data e data science sono usciti dai laboratori e dalle software house, per diventare materia essenziale persino nel marketing. Steven Struhl, l’autore, ha scritto per noi diversi articoli che puoi leggere per avvicinarti al tema e iniziare a farti un’idea su diversi aspetti.

Data science: ne parlano tutti

Al termine di questa chiacchierata ci concediamo un pizzico di orgoglio. La scienza dei dati, oggi, sbuca da ogni angolo. Ma ad anticiparne l’avvento sono stati pochi e c’eravamo anche noi. Nel 2001.

L'autore

  • Redazione Apogeonline
    Nella cura dei contenuti di questo sito si sono avvicendate negli anni tantissime persone: Redazione di Apogeonline è il nome collettivo di tutti noi.
    Non pensare che abbiamo scelto questa formula per non rendere merito o prendere le distanze da chi ha scritto qualcosa! Piuttosto in alcuni casi l'abbiamo utilizzata nella convinzione che non aggiungesse valore al testo sapere a chi appartenesse la penna – anzi la tastiera – di chi l'ha prodotto.

    Per contattarci usa il modulo di contatto che trovi qui.

Vuoi rimanere aggiornato?
Iscriviti alla nostra newletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Gli argomenti che mi interessano:
Iscrivendomi dichiaro di aver preso visione dell’Informativa fornita ai sensi dell'art. 13 e 14 del Regolamento Europeo EU 679/2016.

Corsi che potrebbero interessarti

Tutti i corsi
Big_Data_Analytics-home Corso In aula

Big Data Analytics: iniziare bene

Credi che i Big Data siano una grande opportunità ma pensi che spesso se ne parli a sproposito? Excel ti sta stretto e vorresti fare di più? Andrea De Mauro ti aiuta a fare chiarezza e ti insegna a muovere i primi passi nell'analisi dei Big Data.

con Andrea De Mauro

big-_data_executive-home Corso In aula

Big Data Executive: business e strategie

Vuoi capire se e come la tua azienda può ottenere un vantaggio di business investendo in una strategia di creazione e analisi di Big Data? Il corso di Andrea De Mauro è quello che ti serve.

399,00

Milano - 30/11/2019

con Andrea De Mauro


Libri che potrebbero interessarti

Tutti i libri

Data Science con Python

Dalle stringhe al machine learning, le tecniche essenziali per lavorare sui dati

33,00

48,99€ -33%

24,65

29,00€ -15%

9,99

19,99€ -50%

di Dmitry Zinoviev

Data Science

Guida ai principi e alle tecniche base della scienza dei dati

40,00

59,99€ -33%

29,75

35,00€ -15%

12,99

24,99€ -48%

di Sinan Ozdemir

Big Data Analytics

Analizzare e interpretare dati con il machine learning

33,90

49,89€ -32%

25,42

29,90€ -15%

9,99

19,99€ -50%

di Andrea De Mauro


Articoli che potrebbero interessarti

Tutti gli articoli