Il meccanismo, grosso modo, è abbastanza conosciuto: l’utente digita una parola tramite la quale cerca informazioni e il motore di ricerca risponde con una serie di indirizzi Web, che in qualche modo hanno a che vedere con la parola specificata. Ma come fa il motore di ricerca ad avere immagazzinato tutte quelle informazioni? E come fa a tenerle aggiornate?
Naturalmente dietro a tutto ciò non ci sono schiere di impiegati che catalogano e inseriscono manualmente questi dati. Il tutto avviene in modo automatico, in risposta ad una segnalazione effettuata da chi vuole promuovere il sito. Ma andiamo per ordine.
Il webmaster pubblica il suo sito e vuole farlo conoscere alla popolazione di Internet. Un ottimo mezzo per rendere pubblico il proprio sito è la registrazione in uno o più motori di ricerca. Quindi segnala l’indirizzo del sito a ciascun motore di ricerca o presso siti specializzati che registrano automaticamente l’indirizzo presso diversi motori di ricerca. A questo punto vengono attivati speciali programmi comunemente chiamati robot o spider, il cui compito è quello di analizzare le pagine del sito indicato. Gli spider esplorano le pagine del sito seguendone i collegamenti e andando a finire anche fuori dal sito originario.
Questo in teoria potrebbe significare che un motore di ricerca può catalogare un sito anche senza alcuna esplicita segnalazione; sarebbe sufficiente l’esistenza di qualche collegamento in giro per la rete e prima o poi il sito verrà visitato da qualche spider. Naturalmente la segnalazione del sito permette di velocizzare i tempi per essere catalogati nel motore di ricerca ed essere rintracciati dagli utenti in cerca di informazioni.
Durante la visita da parte dello spider, le pagine del sito vengono analizzate per poter estrarre le informazioni ritenute rilevanti. Ciascun motore di ricerca utilizza i propri criteri per la catalogazione dei siti e l’estrazione delle chiavi di ricerca. Tuttavia alcuni criteri risultano talmente comuni da poter essere considerati standard. Innanzitutto qualsiasi motore di ricerca prende in considerazione il titolo associato a ciascuna pagina Web e lo visualizza come prima riga nei risultati delle ricerche. L’analisi della pagina prosegue analizzando le parole presenti nel testo: viene data maggiore rilevanza al testo che si trova in cima alla pagina.
Il peso dato al testo va diminuendo man mano che si va verso il fondo; infatti i motori di ricerca assumono che le informazioni più importanti vengano inserite in cima alla pagina. Tuttavia, se nelle prime battute di una pagina Web che parla, ad esempio, di cinema viene casualmente più volte ripetuta una certa parola, supponiamo verde, il motore di ricerca assume che questa parola ha una certa rilevanza per quel testo. Quando un utente interessato alla ricerca di informazioni sul verde pubblico si troverà tra gli altri indirizzi anche quello della pagina sul cinema probabilmente resterà un po’ sorpreso!
Alcuni motori di ricerca consentono all’autore delle pagine Web di specificare le chiavi di ricerca da associare ad una pagina tramite una serie di speciali marcatori HTML ( tag). In questo modo la classificazione del sito tramite chiavi di ricerca può essere più accurata rispetto alla classificazione lasciata alla deduzione statistica degli spider.
Dopo aver raccolto le informazioni e catalogato il sito, lo spider continua il suo lavoro verso altri siti, mentre gli utenti del motore di ricerca avranno un sito in più da cui poter attingere informazioni. Periodicamente gli spider visitano il sito per aggiornare i dati in possesso del motore di ricerca, eliminando eventualmente i collegamenti a pagine non più esistenti.
Conoscere i principi di funzionamento di un motore di ricerca può essere utile per l’autore di pagine Web, poiché può strutturare le sue pagine in modo che sia chiaramente catalogabile da parte dei motori di ricerca e facilmente individuabile da parte degli utenti.
Tuttavia c’è sempre chi sfrutta queste conoscenze in modo sleale e poco professionale. Vi è mai capitato di effettuare una ricerca su una parola, per esempio hardware, e trovare ai primi dieci posti dei risultati della ricerca i riferimenti alla homepage di un dilettante appassionato di hardware, mentre il riferimento al sito di un costruttore di componenti hardware si trova quasi in fondo alla classifica? O ancora peggio, di trovare ai primi posti riferimenti a siti che con l’hardware hanno poco a che fare?
Spesso ciò dipende dal fatto che qualche autore di pagine Web ha pensato di sfruttare al massimo i principi su cui si basa la catalogazione dei siti da parte dei motori di ricerca. Ha quindi inserito all’inizio delle proprie pagine Web una lunga serie di parole chiave nascoste ripetendole numerose volte; oppure cambia periodicamente il titolo delle proprie pagine facendo credere al motore di ricerca che si tratta di nuove pagine che vanno ad aggiungersi alle precedenti e aumentare la presenza del proprio sito nel database; o anche inserisce parole chiave che non hanno niente a che vedere con il contenuto del proprio sito, ma ritenendo che su di esse vengono effettuate frequenti ricerche, si garantisce la propria visibilità presso un gran numero di visitatori del motore di ricerca.
Naturalmente non sempre ciò consente di ottenere gli effetti sperati: se siamo interessati al produttore di hardware scarteremo senz’altro la pagina del dilettante, se siamo interessati all’agriturismo escluderemo i riferimenti al sito di un night club, anche se questi si trovano ai primi posti dei risultati della nostra ricerca.
Per combattere questi abusi che portano ad una Informazionefuorviante, i principali motori di ricerca hanno leggermente modificato i criteri di catalogazione, penalizzando chi ripete troppe volte una stessa parola ed effettuando un controllo di coerenza tra le parole chiave specificate e il resto del testo. Purtroppo, anche escludendo i casi di manipolazione, la catalogazione automatica delle pagine Web presenta alcuni problemi dovuti principalmente alla mancanza di strutturazione delle informazioni. L’esempio fatto prima a proposito della parola verde è un caso tipico.
Ma il futuro sembra prospettare una soluzione anche a questo problema: l’utilizzo del linguaggio XML (eXtensible Markup Language) dovrebbe consentire una maggiore strutturazione delle informazioni rispetto ad HTML. Questo comporterebbe non solo la possibilità di avere risultati più accurati e attendibili, ma dovrebbe consentire di effettuare ricerche più complesse come, ad esempio, recuperare i riferimenti a tutte le pagine realizzate da un certo autore, oppure tutte le pagine che contengono informazioni sulle auto di una certa cilindrata e con un prezzo inferiore ad una determinata cifra.
In sostanza avremmo a che fare con vere e proprie interrogazioni a database che consentirebbero selezioni accurate delle informazioni ricercate.
Al momento, comunque, siamo ad un livello sperimentale dell’uso di XML, per cui le selezioni accurate dobbiamo farcele a mano!