Home
I Meta-Motori sono i migliori

12 Ottobre 1999

I Meta-Motori sono i migliori

di

Secondo un articolo della rivista , i meta-motori di ricerca realizzano una migliore copertura delle risorse presente in Rete rispetto ai motori puri.

Uno studio del NEC Research Institute effettuato da due ricercatori, Steve Lawrence and Lee Giles, afferma che nessun motore di ricerca riesce ad indicizzare più del 16% di tutte le pagine presenti sul Web.

Assieme a questo dato abbastanza sconcertante, ma nel complesso prevedibile, la ricerca fornisce altre cifre: le pagine presenti nella Rete hanno superato ormai quota 800 milioni(!) corrispondenti a circa 15 terabytes di caratteri, che si riducono a 6 terabytes di “vero” testo dopo aver rimosso tutti i “tag” dell’HTML e i commenti. Tanto per fare un raffronto, pensate che la Library of Congress, con le sue 532 miglia (856 Km) di scaffali, contiene circa 20 terabytes di caratteri. Le immagini invece sarebbero circa 180 milioni. Sono cifre non da poco; ci vorrebbero qualcosa come 10.000 CD per contenerle tutte.

Ecco i dati disaggregati riguardanti le coperture realizzate dai principali Search Engines:

Northern Light

16.0%

Snap

15.5%

Altavista

15.5%

HotBot

11.3%

Microsoft

8.5%

Infoseek

8.0%

Google

7.8%

Yahoo

7.4%

Excite

5.6%

Lycos

2.5%

Euroseek

2.2%

A sorpresa Altavista perde il primato di motore di ricerca più “ricco” a favore di Northern Light.
L’83% dei siti contiene informazioni commerciali e il 6% materiale scientifico o educativo, mentre (sorpresa), i contenuti pornografici ammonterebbero solo ad un infimo 1,5%. Dolenti note per quanto riguarda l’aggiornamento della indicizzazione: nel peggiore dei casi si può arrivare ad attendere anche qualche mese per l’update di una singola pagina.

Noi, poveri utenti europei, dovremo anche abituarci ad una colonizzazione cultural/commerciale degli indici: infatti i motori preferiscono indicizzare siti americani piuttosto che quelli stranieri, e siti commerciali piuttosto che siti appartenenti a istituzioni educative.

La morale della favola è che per riuscire ad avere la maggior copertura possibile in una data ricerca, conviene usare i Meta-Motori di ricerca, ovvero quei motori che indirizzano la ricerca invece che su degli indici propri, su altri motori. Eliminando i duplicati, la percentuale di copertura raggiungibile, secondo i due ricercatori, può arrivare anche al 50%.

Ma come hanno fatto i ricercatori a ottenere le cifre citate? Con un bel po’ di collaboratori disponibili hanno scelto un campione di 2.500 siti attraverso una selezione causale di numeri IP. Sembrano molti, ma se pensiamo che gli host presenti su Internet sono circa 60 milioni, mentre i Web server più di 3 milioni, tutta l’indagine assume una prospettiva pur sempre significativa ma parziale.

NEC Research Institute: http://www.neci.nj.nec.com/

Vuoi rimanere aggiornato?
Iscriviti alla nostra newletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Gli argomenti che mi interessano:
Iscrivendomi dichiaro di aver preso visione dell’Informativa fornita ai sensi dell'art. 13 e 14 del Regolamento Europeo EU 679/2016.