20 Luglio 2016

Chi fa la query più grossa

Il sogno dei fondatori di GitHub: aumentare ancora disponibilità, portabilità e utilità degli archivi di software open source.

Da quando nel 2008 gli sviluppatori Chris Wanstrath, PJ Hyett e Tom Preston-Werner hanno lanciato la prima versione di GitHub ne è passata di acqua sotto i ponti; nel giro di otto anni, il sito è diventato uno dei punti di riferimento per lo sviluppo collaborativo di codice. Ad oggi Wikipedia parla di più di 14 milioni di utenti e oltre 35 milioni di repository attivi.

Tre settimane fa l’annuncio di una nuova sfida lanciata, in un comunicato comparso il 29 giugno sul blog ufficiale dell’azienda e intitolato Making open source data more available. Ma in che senso GitHub vuole rendere i dati del software open source più disponibili?

Alcuni si ricorderanno che già nel 2012 fu lanciato il progetto pilota Github Archive, mirato proprio a realizzare una timeline pubblica di tutti i dati GitHub, archiviarla e renderla accessibile online per successive analisi. Da lì lo spunto per un ulteriore passo; si legge infatti nel comunicato:

In collaborazione con Google, stiamo rilasciando una raccolta supplementare di tabelle BigQuery per espandere i dati di quel progetto. […]
Con questo nuovo dataset è questione di una semplice query scoprire quali siano i pacchetti [del linguaggio] Go più utilizzati, sapere quali siano le scuole con più contributori ai progetti open source, o trovare tutte le cose che non dovrebbero mai accadere.
Proprio come i libri racchiudono pensieri e idee, il software codifica la conoscenza umana in una forma leggibile dalle macchine. Questo dataset rappresenta un ottimo inizio verso l’obiettivo di documentare il vasto archivio di conoscenza della comunità open source, ma c’è ancora molto da fare. Nei prossimi mesi potete aspettarvi di avere nostre notizie su come speriamo di rendere i dati open source ancora più portabili, disponibili e utili.

BigQuery è un potentissimo strumento che permette agli utenti di sfruttare le risorse informatiche del cloud di Google per effettuare calcoli molto pesanti e laboriosi, che anche dei personal computer molto potenti impiegherebbero ore se non giorni a portare a termine.

Si parla infatti di un dataset di più di tre terabyte e di activity data per oltre 2,8 milioni di repository open source di GitHub, che comprendono più di 145 milioni di commit univoci.

Di potenza di calcolo ce ne vuole abbastanza. Google vi lascia usare la sua. Ora divertitevi. E magari ricordate di condividere i risultati dei vostri incroci con una licenza open.

Il testo di questo articolo è sotto licenza Creative Commons Attribution – Share Alike 4.0.

L'autore

Simone Aliprandi

Simone Aliprandi è un avvocato che si occupa di consulenza, ricerca e formazione nel campo del diritto d’autore e più in generale del diritto dell’ICT. Responsabile del progetto copyleft-italia.it, è membro del network Array e collabora come docente con alcuni istituti universitari. Ha pubblicato articoli e libri sul mondo delle tecnologie open e della cultura libera, rilasciando tutte le sue opere con licenze di tipo copyleft.
- Sito e blog

Chi fa la query più grossa

L'autore

Simone Aliprandi

Sito e blog

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo