All’intersezione tra tecnologia e arti liberali resa meme collettivo da Steve Jobs si trova In Codice Ratio, il progetto di trascrizione dei contenuti presenti negli Archivi Segreti Vaticani e di fatto inaccessibili agli studiosi. Gli Archivi contengono ottantacinque chilometri di scaffali pieni di testi dal valore storico inestimabile, dall’ottavo secolo ai giorni nostri. A oggi, scrive The Atlantic, il contenuto digitalizzato è pari a pochi millimetri; l’unico modo per accedere ai documenti su cui è stata autorizzata la ricerca è ottenere un permesso e recarsi materialmente a Roma. Donatella Firmani e la sua équipe di Roma Tre intendono cambiare le cose a partire dal lavoro su un insieme ristretto di sole diciottomila pagine, relative a corrispondenza tra la Chiesa e le istituzioni europee durante il XIII secolo. Questo corpus, utilizzato per l’addestramento di un sistema di riconoscimento automatico dei testi, ha un potenziale immenso per i ricercatori di tutto il mondo.
Dimmi come scrivi
Il lavoro è tuttavia particolare, perché i manoscritti espongono con crudele efficacia le debolezze del machine learning attuale. Il quale, per esempio, in cambio della precisione pretende basi di dati molto grandi.
I manoscritti sono invece praticamente tutti diversi tra loro. Ogni calligrafo aveva le sue peculiarità di tratto. Stili come Fraktur o onciale aumentano le ambiguità: quei tre tratti verticali saranno m, in, ni…? L’uso massiccio delle legature complica ulteriormente la distinzione dei glifi, per non parlare delle abbreviazioni, sovente vicine all’arbitrario.
Al tratto
Questa vicenda evidenzia quanto sia ancora da colmare il gap che separa la tipografia digitale dalla perfezione raggiunta prima dalla calligrafia e poi dai caratteri mobili. Però ci si sta lavorando. L’approccio di Roma Tre, scartato il riconoscimento per caratteri (inaffidabile) e quello per parole intere (ricorrono con frequenza troppo esigua per formare una buona base dati) è stato puntare sul riconoscimento per singoli tratti. E farsi aiutare da alcune classi di liceali che, effettuando un primo riconoscimento manuale di campioni di scrittura, hanno creato un solido nucleo su cui basare il modello di machine learning.
Intelligenza guidata
A oggi, riferiscono i ricercatori, il livello di riconoscimento raggiunto è del sessantacinque percento. Risultati preliminari, ma incamminati su una strada promettente. Mentre a oggi sono incerte le ricadute effettive di In Codice Ratio, né è chiaro se l’iniziativa porterà a una divulgazione aperta almeno di parte di materiali custoditi negli Archivi Segreti Vaticani, c’è da essere ottimisti sulla capacità di avvicinare la tecnologia di avanguardia alla nostra storia antica. E sul fatto che, senza la guida dell’uomo, l’intelligenza artificiale odierna mostra rapidamente il proprio bisogno di crescere.