Da sempre si usano pseudonimi. Stephen King, esempio tra mille, ha pubblicato sei libri con lo pseudonimo Richard Bachman. Chi scrive si è finto per mesi una hacker neoalureata con tendenze punk, su un periodico a diffusione nazionale.
La differenza è che Bachman/King è stato smascherato, anche a causa di minime differenze tra le tirature dei suoi libri e quelle del mio periodico: hanno suscitato sufficiente interesse perché qualcuno gli applicasse tecniche di stilometria e arrivasse alla paternità reale delle opere.
Da sempre su Internet nobody knows you’re a dog e la questione sta aumentando di importanza perché i contributi anonimi sono in quantità enorme e, per ragioni buone (smascherare falsi, impedire plagi) o cattive (cattura di dissidenti sgraditi a un regime) c’è interesse crescente nel poter determinare via software la paternità di un testo.

Appena nato il web, anche gli animali da compagnia hanno compreso la problematica degli scritti anonimi.
Ci stanno lavorando all’università di Weimar, per la strada lunga, a partire dalla pubblicazione di uno studio che attesta la riproducibilità di vari approcci al problema.
Abbiamo selezionato quindici tra i lavori più influenti sul tema per farli reimplementare da zero a gruppi di studenti; un lavoro che che avrà un impatto significativo per i nuovi ricercatori in questo campo, visto che finora non sono uscite implementazioni libere dei lavori stessi. Stiamo posando le fondamenta per l’integrazione dell’identificazione dell’autore e dell’information retrieval, per arrivare a portare la prima sul web.
Detto questo, ci sono ragioni buone o cattive, secondo il punto di vista, anche per difendere pseudonimi e pezzi non firmati. Difatti a settembre il convegno CLEF in programma in Portogallo ospiterà PAN, un evaluation lab dove si esamineranno gli sviluppi delle tecnologie di identificazione dell’autore, profilazione dell’autore (per esempio determinare sesso ed età di chi scrive) e anche di mascheramento dell’autore, grazie a software capace di parafrasare automaticamente un paragrafo per riscriverlo uguale nel significato e il più possibile diverso nella composizione.
Non credo arriveremo a gare di mascheramento del testo analoghe a quelle in uso tra i programmatori. Sarà interessante vedere chi vincerà, tra il software per scoprire e quello per coprire: altre due applicazioni dell’analisi dei dati cui, sempre più, nulla sembra poter sfuggire.