La pazienza innanzitutto

Data Science

di

thumbnail

19

giu

2017

Prendere dati e ricavarne conoscenza attraverso filtri matematici e statistici: il biglietto per la nuova corsa all’oro.

Questo libro si rivolge ai programmatori che vogliono entrare nel mondo della scienza dei dati scoprendo come unire competenze che spaziano dalla matematica alle analisi di business attraverso la programmazione.

Sinan Ozdemir, l’autore, ha accettato di rispondere a qualche domanda a proposito del libro e qui sotto si può leggere il risultato. Ringraziamo Sabino Maggi per la collaborazione e la consulenza.

Apogeonline: È pensabile nella scienza dei dati che la conoscenza sia già dentro i dati da esaminare e sia sufficiente ripulire questi ultimi per portarla a galla? Oppure i dati sono di per sé neutri e spetta a noi trovare i giusti criteri di filtraggio e interpretazione per arrivare a un significato?

Sinan Ozdemir: Se siamo fortunati, la risposta è già nei dati che abbiamo ricevuto. Bisogna applicare loro differenti trasformazioni matematiche e algoritmi di apprendimento per estrarre la risposta in questione. Può però capitare che che ci tocchi scavare anche fuori dalle informazioni ricevute per riuscire a trovare le informazioni che cerchiamo: raggiungere la risposta unendo i dati di cui disponiamo e quelli che dobbiamo trovare da soli.

A parte le conoscenze informatiche e di programmazione, che altre nozioni occorrono, anche in forma elementare, per avvicinarsi alla data science?

Per creare qualcosa che anche altre persone possano utilizzare, è importante comprendere le applicazioni e come usare bene i test statistici e la programmazione. Proprio pensando all’uso da parte di terzi, considero importante anche saperne di sviluppo web e amministrazione di blog, perché è necessario anche sapere presentare il lavoro che abbiamo svolto.

Visualizzazioni di dati con scikit-learn

Visualizzazioni di dati con scikit-learn, un tool da data scientist basato su Python.

 

I dati che contano sono distinguibili da quelli inutili?

Se partiamo da una ipotesi che possiamo mettere alla prova e abbiamo un’idea di come tentare di sollecitare i dati, è possibile riconoscerne parti più utili di altre.

È stato scritto che la risorsa più preziosa sulla Terra non è più il petrolio, ma i dati. Come fare, per una azienda che vuole investire in scienza dei dati e parte da zero, a lavorare per avere un ritorno interessante?

Prima arrivano gli approcci data-driven da parte delle aziende, meglio è. Non è necessario subito dispiegere risorse estremamente sofisticate, ma essere consapevoli dei dati che si stanno raccogliendo e del fatto che possono essere utilizzati e monetizzati in futuro.

C’è qualche configurazione hardware e software che preferisci ai fini dello sviluppo?

Tendo a preferire TensorFlow come framework di deep learning and using scikit-learn per esperimenti rapidi e data mining.

Qual è il principale punto di forza del tuo libro Data Science?

Data Science

Una buona partenza per scoprire la scienza dei dati.

 

Il libro è concepito per persone che iniziano e sono interessate non sono a imparare la scienza dei dati, ma a apprenderne le applicazioni. Molti libri presuppongono un grado di conoscenza notevole della materia, mentre questo spiega tutto quanto è necessario sapere.

È una disciplina che riguarda strettamente l’ambito della ricerca o può avere ricadute significative nella vita di tutti i giorni?

Moltissime persone hanno già cominciato a tenere nota di quello che mangiano, di quanto dormono, di tutto. Si è già capito che l’uso dei dati nella propria vita è utile e informativo. Le applicazioni della data science sono importanti quanto la data science stessa e questa è la ragione per cui le persone possono sicuramente trarre grande vantaggio dall’applicazione della data science alle proprie giornate.

E nella tua vita privata?

Ho creato qualche semplice applicazione. Niente che la vita l’abbia cambiata, ma ottimi momenti per applicare le cose che ho imparato. Ho realizzato un piccolo assistente personale, software per la previsione degli andamenti azionari e qualche altra cosa.

Rete neurale in TensorFlow

TensorFlow consente di creare reti neurali in modo molto semplice e flessibile.

 

Si parla spesso di Python come linguaggio per la data science, ma moltissimi ricercatori e scienziati usano invece il linguaggio R in quanto più specifico. Qual è la tua preferenza?

Un linguaggio generico come Python consente di portare in qualunque altro ambito la conoscenza acquisita nella data science. Python permette di creare soluzioni valide per portare le proprie applicazioni ad altre persone in modo che esse le possano usare facilmente.

Per formazione sei un matematico e certamente questo è un ottimo inizio per dedicarsi alla data science. Che altri inizi sono consigliabili? Che cosa deve studiare oggi un bambino che da grande vuole fare il data scientist?

Bambino o adulto, per diventare data scientist dovrà familiarizzare con almeno un linguaggio di programmazione generico e le basi della statistica. Poi dovrà essere paziente, perché la data science non funziona sempre come pensavamo e occorre provare e riprovare. La pazienza non si impara studiando, ma è un requisito base per un data scientist.




Sinan Ozdemir (@Prof_Oz) è un data scientist e un docente universitario che vive a San Francisco con il suo cane Charlie, il suo gatto Euclide e il suo drago barbuto Fiero. Ha studiato Matematica alla Johns Hopkins University dove ha iniziato a tenere corsi sulla scienza dei dati. È fondatore della startup Legion Analytics, società che sviluppa soluzioni di intelligenza artificiale e algoritmi di machine learning a beneficio di team di vendita aziendali.

In Rete: https://github.com/sinanuozdemir

Letto 952 volte | Tag: , , , , , ,

Lascia il tuo commento