“Ab uno disce omnis”

Machine learning contro calligrafia: sfida agli Archivi Segreti Vaticani

di

thumbnail

09

mag

2018

All’Università di Roma Tre si lavora alla soluzione di problemi che gli algoritmi attuali fanno ancora fatica a risolvere.

All’intersezione tra tecnologia e arti liberali resa meme collettivo da Steve Jobs si trova In Codice Ratio, il progetto di trascrizione deei contenuti presenti negli Archivi Segreti Vaticani e di fatto inaccessibili agli studiosi.

Gli Archivi contengono ottantacinque chilometri di scaffali pieni di testi dal valore storico inestimabile, dall’ottavo secolo ai giorni nostri. A oggi, scrive The Atlantic, il contenuto digitalizzata è pari a pochi millimetri; l’unico modo per accedere ai documenti su cui è stata autorizzata la ricerca è ottenere un permesso e recarsi materialmente a Roma.

Donatella Firmani e la sua équipe di Rome Tre intendono cambiare le cose a partire dal lavoro su un insieme ristretto di sole diciottomila pagine, relative a corrispondenza tra la Chiesa e le istituzioni europee durante il XIII secolo. Questo corpus, utilizzato per l’addestramento di un sistema di riconoscimento automatico dei testi, ha un potenziale immenso per i ricercatori di tutto il mondo.

Dimmi come scrivi

Il lavoro è tuttavia particolare, perché i manoscritti espongono con crudele efficacia le debolezze del machine learning attuale. Il quale, per esempio, in cambio della precisione pretende basi di dati molto grandi.

U a forma di drago

Nell’Undicesimo secolo il concetto di scrittura era più articolato di quello di oggi.

 

I manoscritti sono invece praticamente tutti diversi tra loro. Ogni calligrafo aveva le sue peculiarità di tratto. Stili come Fraktur o onciale aumentano le ambiguità: quei tre tratti verticali saranno m, in, ni…? L’uso massiccio delle legature complica ulteriormente la distinzione dei glifi, per non parlare delle abbreviazioni, sovente vicine all’arbitrario.

Al tratto

Questa vicenda evidenzia quanto sia ancora da colmare il gap che separa la tipografia digitale dalla perfezione raggiunta prima dalla calligrafia e poi dai caratteri mobili.

Però ci si sta lavorando. L’approccio di Roma Tre, scartato il riconoscimento per caratteri (inaffidabile) e quello per parole intere (ricorrono con frequenza troppo esigua per formare una buona base dati) è stato puntare sul riconoscimento per singoli tratti. E farsi aiutare da alcune classi di liceali che, effettuando un primo riconoscimento manuale di campioni di scrittura, hanno creato un solido nucleo su cui basare il modello di machine learning.

Intelligenza guidata

A oggi, riferiscono i ricercatori, il livello di riconoscimento raggiunto è del sessantacinque percento. Risultati preliminari, ma incamminati su una strada promettente.

Mentre a oggi sono incerte le ricadute effettive di In Codice Ratio, né è chiaro se l’iniziativa porterà a una divulgazione aperta almeno di parte di materiali custoditi negli Archivi Segreti Vaticani, c’è da essere ottimisti sulla capacità di avvicinare la tecnologia di avanguardia alla nostra storia antica. E sul fatto che, senza la guida dell’uomo, l’intelligenza artificiale odierna mostra rapidamente il proprio bisogno di crescere.

Data Science

Machine learning alla prova degli antichi manoscritti.

 




Lucio Bragagnolo (@loox) è giornalista, divulgatore, produttore di contenuti, consulente in comunicazione e media. Si occupa con entusiasmo di mondo Apple e digitalizzazione a scuola e in azienda. Dal 2015 è membro del comitato tecnico-scientifico di LibreItalia. Nel tempo libero gioca di ruolo, legge, balbetta Lisp e pratica sport di squadra. È sposato felicemente con Stefania e padre apprendista di Lidia e Nive. Insieme a Luca Accomazzi è autore per Apogeo dei manuali su OS X, tra i quali OS X Server, OS X 10.11 El Capitan e OS X oltre ogni limite. Con Swift ha fatto tutto da solo.

In Rete: macintelligence.org

Letto 3.328 volte | Tag: , , ,

Lascia il tuo commento