Google indicizza qualcosa come 8 miliardi di pagine web. Un numero difficile da digerire anche per il motore di ricerca più famoso del mondo, soprattutto quando si trova di fronte a siti come Amazon o Ebay, costituiti da decine di migliaia di pagine.
Un buon modo per facilitare l’indicizzazione è creare una mappa del sito che in una sola pagina ne riassuma la struttura. Lo spider di Google avrà così vita più facile nel raggiungere ogni risorsa. In siti molto complessi, però, alcune pagine cambiano più frequentemente di altre e possono essere profondamente annidate, costringendo lo spider a attraversare più livelli di link per raggiungere l’unico contenuto che ha subito un aggiornamento significativo.
Ecco quindi la necessità di costruire mappe più ricche di informazioni circa le risorse a cui puntano.
Google ha introdotto l’uso di XML Sitemap Format, un dialetto XML che fornisce i tag necessari per descrivere sinteticamente una mappa del sito web, ricca dal punto di vista semantico. Quello che Sitemaps fornisce è sostanzialmente un elenco di Url arricchite da una serie di meta informazioni utili per l’indicizzazione:
- changefreq – la frequenza con cui la risorsa viene modificata
- lastmod – la data dell’ultima modifica della risorsa
- loc – l’indirizzo (Url) della risorsa
- priority – la priorità relativamente alle altre pagine
Qui di seguito un esempio di Sitemaps:
Come si può vedere si tratta di una struttura molto semplice: l’elenco delle Url è incapsulata nel tag “urlset”, e le caratteristiche di ogni singola Url sono a loro volta annidate nel tag “url”.
Google fornisce uno script in python per generare una Sitemaps a partire da diverse sorgenti come per esempio una semplice lista di Url o un file di log Apache opportunamente strutturato.
La forza dell’idea di Google sta nell’essere vantaggiosa sia per i gestori dei siti, sia per Google stesso: da un lato il motore risparmia tempo e banda per l’indicizzazione riuscendo ad essere più efficiente, dall’altro i gestori di siti web possono ottenere un miglior servizio dando priorità a pagine che ritengono più importanti.
C’è da dire che Google non assicura che tutte le pagine del sito verranno “macinate” dal dallo spider, ne necessariamente che il ranking verrà influenzato. Si tratta in pratica di un supplemento (ancora in fase sperimentale) al normale metodo di indicizzazione.
E Microsoft con il suo MSN? Sta a guardare…
Contatti e informazioni
L’autore dell’articolo partecipa, nell’ambito del Master MICSU (Umanisti, informatica e comunicazione), a un progetto di studio e lavoro su problematiche legate al web semantico ed al tracciamento dell’informazione. Segui il filo delle indagini sul blog del gruppo.