09 Maggio 2018

Machine learning contro calligrafia: sfida agli Archivi Segreti Vaticani

All’Università di Roma Tre si lavora alla soluzione di problemi che gli algoritmi attuali fanno ancora fatica a risolvere.

All’intersezione tra tecnologia e arti liberali resa meme collettivo da Steve Jobs si trova In Codice Ratio, il progetto di trascrizione dei contenuti presenti negli Archivi Segreti Vaticani e di fatto inaccessibili agli studiosi. Gli Archivi contengono ottantacinque chilometri di scaffali pieni di testi dal valore storico inestimabile, dall’ottavo secolo ai giorni nostri. A oggi, scrive The Atlantic, il contenuto digitalizzato è pari a pochi millimetri; l’unico modo per accedere ai documenti su cui è stata autorizzata la ricerca è ottenere un permesso e recarsi materialmente a Roma. Donatella Firmani e la sua équipe di Roma Tre intendono cambiare le cose a partire dal lavoro su un insieme ristretto di sole diciottomila pagine, relative a corrispondenza tra la Chiesa e le istituzioni europee durante il XIII secolo. Questo corpus, utilizzato per l’addestramento di un sistema di riconoscimento automatico dei testi, ha un potenziale immenso per i ricercatori di tutto il mondo.

Dimmi come scrivi

Il lavoro è tuttavia particolare, perché i manoscritti espongono con crudele efficacia le debolezze del machine learning attuale. Il quale, per esempio, in cambio della precisione pretende basi di dati molto grandi.

Nell’Undicesimo secolo il concetto di scrittura era più articolato di quello di oggi.

I manoscritti sono invece praticamente tutti diversi tra loro. Ogni calligrafo aveva le sue peculiarità di tratto. Stili come Fraktur o onciale aumentano le ambiguità: quei tre tratti verticali saranno m, in, ni…? L’uso massiccio delle legature complica ulteriormente la distinzione dei glifi, per non parlare delle abbreviazioni, sovente vicine all’arbitrario.

Al tratto

Questa vicenda evidenzia quanto sia ancora da colmare il gap che separa la tipografia digitale dalla perfezione raggiunta prima dalla calligrafia e poi dai caratteri mobili. Però ci si sta lavorando. L’approccio di Roma Tre, scartato il riconoscimento per caratteri (inaffidabile) e quello per parole intere (ricorrono con frequenza troppo esigua per formare una buona base dati) è stato puntare sul riconoscimento per singoli tratti. E farsi aiutare da alcune classi di liceali che, effettuando un primo riconoscimento manuale di campioni di scrittura, hanno creato un solido nucleo su cui basare il modello di machine learning.

Intelligenza guidata

A oggi, riferiscono i ricercatori, il livello di riconoscimento raggiunto è del sessantacinque percento. Risultati preliminari, ma incamminati su una strada promettente. Mentre a oggi sono incerte le ricadute effettive di In Codice Ratio, né è chiaro se l’iniziativa porterà a una divulgazione aperta almeno di parte di materiali custoditi negli Archivi Segreti Vaticani, c’è da essere ottimisti sulla capacità di avvicinare la tecnologia di avanguardia alla nostra storia antica. E sul fatto che, senza la guida dell’uomo, l’intelligenza artificiale odierna mostra rapidamente il proprio bisogno di crescere.

Machine learning alla prova degli antichi manoscritti.

L'autore

Lucio Bragagnolo

Lucio Bragagnolo è giornalista, divulgatore, produttore di contenuti, consulente in comunicazione e media. Si occupa di mondo Apple, informatica e nuove tecnologie con entusiasmo crescente. Nel tempo libero gioca di ruolo, legge, balbetta Lisp e pratica sport di squadra. È sposato felicemente con Stefania e padre apprendista di Lidia e Nive.

Machine learning contro calligrafia: sfida agli Archivi Segreti Vaticani

Dimmi come scrivi

Al tratto

Intelligenza guidata

L'autore

Lucio Bragagnolo

Twitter

LinkedIn

QuickLoox

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo