Uno studio del NEC Research Institute effettuato da due ricercatori, Steve Lawrence and Lee Giles, afferma che nessun motore di ricerca riesce ad indicizzare più del 16% di tutte le pagine presenti sul Web.
Assieme a questo dato abbastanza sconcertante, ma nel complesso prevedibile, la ricerca fornisce altre cifre: le pagine presenti nella Rete hanno superato ormai quota 800 milioni(!) corrispondenti a circa 15 terabytes di caratteri, che si riducono a 6 terabytes di “vero” testo dopo aver rimosso tutti i “tag” dell’HTML e i commenti. Tanto per fare un raffronto, pensate che la Library of Congress, con le sue 532 miglia (856 Km) di scaffali, contiene circa 20 terabytes di caratteri. Le immagini invece sarebbero circa 180 milioni. Sono cifre non da poco; ci vorrebbero qualcosa come 10.000 CD per contenerle tutte.
Ecco i dati disaggregati riguardanti le coperture realizzate dai principali Search Engines:
Northern Light |
16.0% |
Snap |
15.5% |
Altavista |
15.5% |
HotBot |
11.3% |
Microsoft |
8.5% |
Infoseek |
8.0% |
|
7.8% |
Yahoo |
7.4% |
Excite |
5.6% |
Lycos |
2.5% |
Euroseek |
2.2% |
A sorpresa Altavista perde il primato di motore di ricerca più “ricco” a favore di Northern Light.
L’83% dei siti contiene informazioni commerciali e il 6% materiale scientifico o educativo, mentre (sorpresa), i contenuti pornografici ammonterebbero solo ad un infimo 1,5%. Dolenti note per quanto riguarda l’aggiornamento della indicizzazione: nel peggiore dei casi si può arrivare ad attendere anche qualche mese per l’update di una singola pagina.
Noi, poveri utenti europei, dovremo anche abituarci ad una colonizzazione cultural/commerciale degli indici: infatti i motori preferiscono indicizzare siti americani piuttosto che quelli stranieri, e siti commerciali piuttosto che siti appartenenti a istituzioni educative.
La morale della favola è che per riuscire ad avere la maggior copertura possibile in una data ricerca, conviene usare i Meta-Motori di ricerca, ovvero quei motori che indirizzano la ricerca invece che su degli indici propri, su altri motori. Eliminando i duplicati, la percentuale di copertura raggiungibile, secondo i due ricercatori, può arrivare anche al 50%.
Ma come hanno fatto i ricercatori a ottenere le cifre citate? Con un bel po’ di collaboratori disponibili hanno scelto un campione di 2.500 siti attraverso una selezione causale di numeri IP. Sembrano molti, ma se pensiamo che gli host presenti su Internet sono circa 60 milioni, mentre i Web server più di 3 milioni, tutta l’indagine assume una prospettiva pur sempre significativa ma parziale.
NEC Research Institute: http://www.neci.nj.nec.com/