Home
L'incubo del text mining

11 Febbraio 2014

L'incubo del text mining

di

Gli editori scientifici sono riottosi a consentire la ricerca automatizzata dei propri contenuti. Ma la domanda cresce.

Le digitalizzazioni di patrimoni storici, artistici, archivistici che si registrano un po’ ovunque, dalla Biblioteca Apostolica Vaticana alla British Library, lasciano un segno anche oltre ogni singola iniziativa in quanto tale.
Una delle ultime aggiunte all’elenco riguarda l’Atlas of the Historical Geography of the United States, edito nel 1932 e transitato all’era digitale grazie al lavoro del Digital Scholarship Lab dell’università di Richmond nello Stato della Virginia:

Questa edizione digitale riproduce tutte le quasi settecento mappe dell’atlante. Molte di queste belle cartine sono state arricchite in modi impossibili per la stampa, animate per mostrare i cambiamenti nel tempo o rese cliccabili per svelarne i dati sottostanti; mappe rimarchevoli prodotte otto decenni fa, con le possibilità del ventunesimo secolo.

Una storia come appunto tante altre, cronologicamente vicina a qualcosa che invece capita meno spesso: il gigante della pubblicazione scientifica Elsevier ha rimosso alcune barriere all’indagine computerizzata dei suoi undici milioni di articoli scientifici.
Il tema è spinoso. Nature riporta nel parlarne la vicenda di Max Haeussler, biologo computazionale presso l’università di California Santa Cruz, tra i catalizzatori della discussione sull’argomento in quanto

ha passato più di tre anni a discutere con gli editori per avere il permesso di estrarre automaticamente dati sul DNA da tre milioni di articoli, allo scopo di creare una mappa online del genoma umano.

Text mining, scansione automatizzata di grandi insiemi di testi digitali: gli editori scientifici temono di ritrovarsi espropriati dei loro contenuti e nicchiano. Elsevier ha annunciato il 26 gennaio scorso davanti alla American Library Association riunita a convegno una nuova libertà: API (interfacce di programmazione) utilizzabili da terzi per scaricare in formato XML documenti e informazioni editi da Elsevier stessa.
Con qualche distinguo. C’è un tetto di diecimila articoli per settimana, bisogna aver siglato un accordo legale, la ripubblicazione di dati ed estratti deve avvenire con licenza ristretta a un utilizzo non commerciale, i brani di testo originale devono stare entro i 200 caratteri, devono essere presenti link al contenuto originale.
Il cancello è stato tuttavia socchiuso. Il lavoro di Elsevier riguarderà presto più la valorizzazione dei propri contenuti che la loro protezione dagli sguardi indiscreti. Il digitale provoca l’apertura dei recinti. Meglio naturalmente se la incoraggia invece che costringerla.

L'autore

  • Lucio Bragagnolo
    Lucio Bragagnolo è giornalista, divulgatore, produttore di contenuti, consulente in comunicazione e media. Si occupa di mondo Apple, informatica e nuove tecnologie con entusiasmo crescente. Nel tempo libero gioca di ruolo, legge, balbetta Lisp e pratica sport di squadra. È sposato felicemente con Stefania e padre apprendista di Lidia e Nive.

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Gli argomenti che mi interessano:
Iscrivendomi dichiaro di aver preso visione dell’Informativa fornita ai sensi dell'art. 13 e 14 del Regolamento Europeo EU 679/2016.