12 Ottobre 1999

I Meta-Motori sono i migliori

Secondo un articolo della rivista , i meta-motori di ricerca realizzano una migliore copertura delle risorse presente in Rete rispetto ai motori puri.

Uno studio del NEC Research Institute effettuato da due ricercatori, Steve Lawrence and Lee Giles, afferma che nessun motore di ricerca riesce ad indicizzare più del 16% di tutte le pagine presenti sul Web.

Assieme a questo dato abbastanza sconcertante, ma nel complesso prevedibile, la ricerca fornisce altre cifre: le pagine presenti nella Rete hanno superato ormai quota 800 milioni(!) corrispondenti a circa 15 terabytes di caratteri, che si riducono a 6 terabytes di “vero” testo dopo aver rimosso tutti i “tag” dell’HTML e i commenti. Tanto per fare un raffronto, pensate che la Library of Congress, con le sue 532 miglia (856 Km) di scaffali, contiene circa 20 terabytes di caratteri. Le immagini invece sarebbero circa 180 milioni. Sono cifre non da poco; ci vorrebbero qualcosa come 10.000 CD per contenerle tutte.

Ecco i dati disaggregati riguardanti le coperture realizzate dai principali Search Engines:

Northern Light	16.0%
Snap	15.5%
Altavista	15.5%
HotBot	11.3%
Microsoft	8.5%
Infoseek	8.0%
Google	7.8%
Yahoo	7.4%
Excite	5.6%
Lycos	2.5%
Euroseek	2.2%

A sorpresa Altavista perde il primato di motore di ricerca più “ricco” a favore di Northern Light.
L’83% dei siti contiene informazioni commerciali e il 6% materiale scientifico o educativo, mentre (sorpresa), i contenuti pornografici ammonterebbero solo ad un infimo 1,5%. Dolenti note per quanto riguarda l’aggiornamento della indicizzazione: nel peggiore dei casi si può arrivare ad attendere anche qualche mese per l’update di una singola pagina.

Noi, poveri utenti europei, dovremo anche abituarci ad una colonizzazione cultural/commerciale degli indici: infatti i motori preferiscono indicizzare siti americani piuttosto che quelli stranieri, e siti commerciali piuttosto che siti appartenenti a istituzioni educative.

La morale della favola è che per riuscire ad avere la maggior copertura possibile in una data ricerca, conviene usare i Meta-Motori di ricerca, ovvero quei motori che indirizzano la ricerca invece che su degli indici propri, su altri motori. Eliminando i duplicati, la percentuale di copertura raggiungibile, secondo i due ricercatori, può arrivare anche al 50%.

Ma come hanno fatto i ricercatori a ottenere le cifre citate? Con un bel po’ di collaboratori disponibili hanno scelto un campione di 2.500 siti attraverso una selezione causale di numeri IP. Sembrano molti, ma se pensiamo che gli host presenti su Internet sono circa 60 milioni, mentre i Web server più di 3 milioni, tutta l’indagine assume una prospettiva pur sempre significativa ma parziale.

NEC Research Institute: http://www.neci.nj.nec.com/

L'autore

Corrado Petrucco

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Libri che potrebbero interessarti

Tutti i libri

Sviluppare applicazioni con Angular - Nuova edizione aggiornata

Guida alla programmazione web e mobile

27,55^€

29,00€ -5%

di Vincenzo Giacchina

Node.js

Guida per creare API e applicazioni in JavaScript

33,25^€

35,00€ -5%

di Alessandro Miliucci

Sviluppare applicazioni con Django

Guida alla programmazione web aggiornata alla versione 5

35,00^€

49,99€ -30%

28,50^€

30,00€ -5%

19,99^€

di Marco Beri

Articoli che potrebbero interessarti

Tutti gli articoli

3 libri per imparare il web professionale

(Pubblicato il 24 Aprile 2024)
Costruire, esprimersi, inventare, facilitare HTML & CSS PHP & MySQL JavaScript & jQuery Che cosa hanno in comune Facebook, Google Documenti e Lafeltrinelli.it? Sono siti web. Quali che siano il…

di Redazione Apogeonline