22 Aprile 2004

Resta di stucco, è un Googletrucco!

Il popolarissimo motore di ricerca è ricco di scorciatoie poco conosciute per affinare le ricerche, che però possono anche carpire informazioni riservate incautamente pubblicate sul Web. Dietro le quinte dell'oracolo di Internet

Sai di essere arrivato al successo quando qualcuno usa il tuo marchio come se fosse un verbo; e non c’è dubbio che Google, partorito da due studenti della Stanford University, Sergey Brin e Larry Page, nell’ormai remotissimo 1998, il successo l’abbia in pugno. Ormai il verbo googlare è diventato di uso comune, perlomeno fra gli internettari, come sinonimo efficiente e telegrafico dell’ingombrante “svolgere una ricerca su Internet utilizzando un motore di ricerca”.

Nonostante la sua popolarità, è raro che Google venga utilizzato spremendone al massimo le potenzialità per ottenere risultati precisi e utili; molti utenti non conoscono le sue opzioni, per cui si limitano a immettere qualche parola chiave sperando che basti. Ma in questo modo capita spessissimo di googlare su un argomento e trovarsi sommersi di pagine irrilevanti, rendendo futile la ricerca. Ottenere 10.147 risultati è come non averne nessuno. Ci vuole un trucco per scremare quei risultati.

Google, per fortuna, offre un repertorio di trucchi e affinamenti davvero vasto. Ma molti di questi trucchi sono sfruttabili per reperire informazioni che in teoria non dovrebbero essere accessibili a chiunque, ma finiscono sbadatamente pubblicate sul Web grazie alla poca competenza di tanti webmaster e responsabili informatici.

Aghi nei pagliai

Cominciamo con le tecniche più semplici ma ciononostante poco conosciute (pur essendo documentate) per cercare meglio con Google. La prima è l’uso delle virgolette, che ricerca le parole soltanto nell’esatta sequenza anziché includere anche le pagine in cui le parole compaiono in ordine sparso. Per esempio, trovare una citazione famosa, un termine tecnico o informazioni su un personaggio celebre è più facile se si racchiudono le parole tra virgolette: “leonardo re cecconi” produce soltanto risultati utili (se non sapete chi era, vi siete persi un pezzo di storia della radio che ci ha lasciato troppo, troppo presto); senza le virgolette, invece, quelle pagine utili si perdono fra cinquecento altri risultati.

Un’altra tecnica utile è l’uso del segno “meno” per escludere le pagine di Internet che contengono un termine, in modo da rendere meno ambigua la ricerca. Per esempio, se volete informazioni sulla margherita (il fiore), potete specificare margherita -pizza -politica. Anche l’asterisco è un aiutante prezioso: può sostituire una parola intera come se fosse un jolly. Non vi ricordate se nel celebre scioglilingua la capra campa quando sta sopra o sotto la panca? Googlate “* la panca la capra campa” (virgolette comprese).

Se vi serve restringere la ricerca all’interno di un sito specifico, potete usare il prefisso “site:” seguito dal nome del sito. Per esempio, “franco malerba” site:nasa.gov elencherà tutte le pagine del sito della NASA che parlano dell’astronauta italiano recentemente trasformatosi in attore (non lo sapevate? Googlate). Quest’opzione è così efficace che vale la pena di usarla anche quando il sito specifico dispone di un proprio motore di ricerca, e funziona anche sui suffissi dei nomi di dominio, per cui potete usarla per restringere la ricerca ai soli siti “.it”, “.com” e così via: ricordate di togliere il punto prima del suffisso, come in site:it.

Ci sono anche delle tecniche di ricerca basate più sul buon senso che sui codici: se siete a corto di risultati utili, ricordate di cercare non soltanto il singolare ma anche il plurale dei termini, e se vi serve un dato statistico, formulate la ricerca come una risposta alla vostra domanda: per esempio, se volete sapere la durata media della vita in Italia, non digitate “qual è la durata media della vita in Italia”, ma “la durata media della vita in Italia è”.

Google offre anche sfogo alle piccole vanità. Alzi la mano chi non ha mai cercato il proprio nome e cognome in Google, per cercare omonimi o per vedere quanto si è conosciuti (o malfamati) in Rete. Ma si può fare di più. Per esempio, per sapere quanti altri siti citano il vostro sito degnandolo di un link, immettete in Google “link:” seguito (senza spazi) dal nome del vostro sito. Per sapere quanti più semplicemente ne citano il nome, è sufficiente immetterlo fra virgolette in Google, completo di eventuali prefissi e suffissi www, com,it e via dicendo. Soddisfatti?

Spiare senza sporcarsi le mani

Ci sono però alcune opzioni di Google che si prestano a usi potenzialmente pericolosi. Per esempio, specificare filetype consente di restringere la ricerca a un tipo specifico di file (Google non si limita a esplorare i file HTML, ma cataloga anche molti altri tipi di file). In questo modo potete sapere quanti documenti Word, per esempio, sono presenti in un sito, e poi prelevarli alla ricerca di informazioni lasciate involontariamente nei file (come ben sa Tony Blair). Per Googlare in questo modo il sito della Camera, giusto per citarne uno gustoso, la sintassi è filetype:doc site:www.camera.it.

Un altro trucco per stupire gli amici e aggirare i filtri sempre più frequentemente installati nei siti istituzionali e aziendali è usare la funzione di traduzione di Google. Per esempio, un sito come Playboy.com può essere oscurato dal filtro per ovvie ragioni, mentre per ragioni altrettanto ovvie Google non viene mai filtrato. Basta usare la sintassi http://translate.google.com/translate?u=www.playboy.com&langpair=en%7Cen per dire a Google di visitare per noi Playboy.com e “tradurre” dall’inglese… all’inglese, ossia lasciare il sito intatto. Il filtro rileva che stiamo consultando Google e quindi lascia passare il traffico “proibito”.

Ma questo è soltanto l’inizio: a questo punto entrano in gioco gli errori comuni dei responsabili dei siti. Capita più spesso di quanto potreste immaginare che un amministratore di un sito metta nelle directory accessibili via Web anche documenti che non vorrebbe in realtà pubblicare: un classico esempio è dato dai “coccodrilli” preparati dai quotidiani online in caso di morte di personaggi in vista, che ogni tanto fanno capolino in Rete.

Il “ragionamento”, per così dire, è che se un documento non è linkato, non verrà trovato. Peccato che invece Google lo trovi eccome, specialmente se il server Web è configurato in modo che quando una directory del sito non ha una pagina di default, il visitatore veda l’elenco completo dei file presenti in quella directory, intitolato quasi sempre “Index of” o “Directory of” oppure contenente la frase “parent directory”. Di conseguenza, Googlare per esempio intitle:”index of” site:itpassword ci regala un bell’elenco di siti italiani inopportunamente configurati, le cui directory contengono file il cui nome include password. Indovinate cosa ci sarà spesso in quei file?

Ovviamente password non è l’unica parola chiave interessante: basta liberare la fantasia e avere un po’ di competenza informatica per trovarne altre altrettanto ghiotte: passwd, htpasswd, htaccess, autoexec.bat, e così via. Ironicamente, anche robots.txt, il file che si mette in una directory per non farla catalogare da un motore di ricerca, è un appiglio per gli aggressori, perché la sua presenza indica che la directory contiene del materiale che non si vuol far vedere e quindi è appetibile. Purtroppo non tutti si rendono conto che il file robots.txt si limita a chiedere ai motori di ricerca di non catalogare una directory, ma non vieta affatto l’accesso tramite browser ai file di quella directory, se se ne conosce il nome o il contenuto.

Un’altra googlata preferita dai curiosi è “not for distribution” confidential: è impressionante notare quanti documenti etichettati “riservato – da non distribuire” siano in realtà liberamente consultabili via Internet. Il caso di una frase ricorrente di FileMaker Pro (“Select a database to view”), usata in Google per rivelare un file contenente dati medici sensibili negli USA, è un altro tipico esempio di questo genere di problemi. Per trovare altre frasi-chiave basta pensare ai testi standard usati dai più diffusi programmi che generano documenti pubblicabili sul Web.

Si può offrire un appiglio a un aggressore anche senza essere così incoscienti da lasciare che Google pubblichi le proprie password o i propri database riservati. Sapere l’esatta versione di software utilizzata da un server Web, per esempio, è utilissimo per studiare un attacco su misura. Infatti un aggressore che conosca una vulnerabilità esistente in una specifica versione di un server Web cercherà siti che usino quella versione e non abbiano installato gli opportuni aggiornamenti: se il sito è mal configurato, all’aggressore basta digitare in Google intitle:”welcome to IIS 4.0″, o una stringa equivalente per Apache (intitle:”Index of” “Apache” “server at”) o per altri server Web, per ottenere un elenco dei siti che usano la versione di software vulnerabile.

Se la porta non è chiusa a chiave

L’ironia di tutte queste falle è che in realtà, secondo la legislazione di molti paesi, non si tratta neppure di intrusioni vere e proprie. Per accedere ai dati riservati, infatti, non occorre superare alcuna protezione: sono lì, offerti da Google, magari addirittura nella sua cache, per cui si possono leggere senza neppure allertare il sito della visita indesiderata. L’intrusione avviene, dal punto di vista della legge, soltanto se l’intruso ha superato una ragionevole forma di protezione (mettere un cartello “vietato entrare” non è una forma ragionevole di protezione). Se il responsabile di un sito non chiude a chiave la porta, insomma, non può neppure lamentarsi di fronte alla legge quando qualcuno gli entra in casa.

Arrabbiati? Indignati? Lo so. La tentazione di prendersela con chi divulga queste ed altre falle in guide come The Google Hacker’s Guide e Searchlores è comprensibile, ma è l’equivalente online di sparare al messaggero per non sentire le cattive notizie. Il fatto è che le falle non vengono in realtà divulgate da queste guide, perché sono già stranote da tempo a chi fa dell’aggressione informatica uno stile di vita: con queste pubblicazioni, e con articoli come quello che state leggendo, vengono semmai segnalate anche agli utenti onesti. Non segnalarle significherebbe lasciare inermi i responsabili dei siti Web, che non saprebbero mai dell’esistenza di questi problemi e della necessità di rimediarvi. E i rimedi esistono: basta applicarli.

L'autore

Paolo Attivissimo

Paolo Attivissimo (non è uno pseudonimo) è nato nel 1963 a York, Inghilterra. Ha vissuto a lungo in Italia e ora oscilla per lavoro fra Italia, Lussemburgo e Inghilterra. E' autore di numerosi bestseller Apogeo e editor del sito www.attivissimo.net.

3 ebook a un prezzo eccezionale! 🚣‍♀️

Resta di stucco, è un Googletrucco!

L'autore

Paolo Attivissimo

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo