Home
XML Sitemaps: mappe semantiche per i siti web

29 Giugno 2005

XML Sitemaps: mappe semantiche per i siti web

di

Google continua a sperimentare e a lottare per il dominio nel mercato dei motori di ricerca. Da qualche giorno ha proposto un metodo per produrre mappe che facilitino il lavoro dei motori di ricerca.

Google indicizza qualcosa come 8 miliardi di pagine web. Un numero difficile da digerire anche per il motore di ricerca più famoso del mondo, soprattutto quando si trova di fronte a siti come Amazon o Ebay, costituiti da decine di migliaia di pagine.

Un buon modo per facilitare l’indicizzazione è creare una mappa del sito che in una sola pagina ne riassuma la struttura. Lo spider di Google avrà così vita più facile nel raggiungere ogni risorsa. In siti molto complessi, però, alcune pagine cambiano più frequentemente di altre e possono essere profondamente annidate, costringendo lo spider a attraversare più livelli di link per raggiungere l’unico contenuto che ha subito un aggiornamento significativo.
Ecco quindi la necessità di costruire mappe più ricche di informazioni circa le risorse a cui puntano.
Google ha introdotto l’uso di XML Sitemap Format, un dialetto XML che fornisce i tag necessari per descrivere sinteticamente una mappa del sito web, ricca dal punto di vista semantico. Quello che Sitemaps fornisce è sostanzialmente un elenco di Url arricchite da una serie di meta informazioni utili per l’indicizzazione:

  • changefreq – la frequenza con cui la risorsa viene modificata
  • lastmod – la data dell’ultima modifica della risorsa
  • loc – l’indirizzo (Url) della risorsa
  • priority – la priorità relativamente alle altre pagine

Qui di seguito un esempio di Sitemaps:




http://www.yoursite.com/
2005-01-01
monthly 0.8


http://www.yoursite.com/catalog?item=12&desc=vacation_hawaii
weekly


http://www.yoursite.com/catalog?item=73&desc=vacation_new_zealand
2004-12-23
weekly


http://www.yoursite.com/catalog?item=74&desc=vacation_newfoundland
2004-12-23T18:00:15+00:00 0.3


http://www.yoursite.com/catalog?item=83&desc=vacation_usa
2004-11-23

Come si può vedere si tratta di una struttura molto semplice: l’elenco delle Url è incapsulata nel tag “urlset”, e le caratteristiche di ogni singola Url sono a loro volta annidate nel tag “url”.

Google fornisce uno script in python per generare una Sitemaps a partire da diverse sorgenti come per esempio una semplice lista di Url o un file di log Apache opportunamente strutturato.

La forza dell’idea di Google sta nell’essere vantaggiosa sia per i gestori dei siti, sia per Google stesso: da un lato il motore risparmia tempo e banda per l’indicizzazione riuscendo ad essere più efficiente, dall’altro i gestori di siti web possono ottenere un miglior servizio dando priorità a pagine che ritengono più importanti.
C’è da dire che Google non assicura che tutte le pagine del sito verranno “macinate” dal dallo spider, ne necessariamente che il ranking verrà influenzato. Si tratta in pratica di un supplemento (ancora in fase sperimentale) al normale metodo di indicizzazione.

E Microsoft con il suo MSN? Sta a guardare…

Contatti e informazioni

L’autore dell’articolo partecipa, nell’ambito del Master MICSU (Umanisti, informatica e comunicazione), a un progetto di studio e lavoro su problematiche legate al web semantico ed al tracciamento dell’informazione. Segui il filo delle indagini sul blog del gruppo.

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Gli argomenti che mi interessano:
Iscrivendomi dichiaro di aver preso visione dell’Informativa fornita ai sensi dell'art. 13 e 14 del Regolamento Europeo EU 679/2016.