We are the robots

L’altro giorno, dopo aver letto questo post, mi è venuta la curiosità di andare a sbirciare in giro tra i file robots.txt di vari siti.
Cosa sono i file robots.txt? Sono muri tirati su dagli amministratori di un sito internet per evitare che i motori di ricerca entrino in alcune stanze del sito stesso. In pratica servono per dire a Google, Yahoo e compagnia bella di non indicizzare (leggi: di non rendere pubbliche) certe pagine.
E per essere più chiaro parto subito con gli esempi.

1) Il Corriere.it ha blindato questa stanzetta.

Disallow:/politica/10_febbraio_05/sabrina_ferilli_non_
sono_la_sora_palin_5d9b4bb8-1224-11df-b50d-00144f02aabe.shtml

Ciò significa che ha sottratto agli spider dei motori di ricerca un articolo (che nel caso specifico è stato anche cancellato) riguardante alcune controverse dichiarazioni di Sabrina Ferilli sulla mancanza di gnocca nel Pd.

2) Nel sito di Repubblica.it la situazione si fa più complessa. Qui i robots.txt blindano la notizia dell’arresto nel 2006 del capogruppo dei Ds nel consiglio regionale della Calabria.

Disallow: /2006/08/sezioni/cronaca/ds-arrestato
/ds-arrestato/ds-arrestato.html

Alzano il muro su un’antica (e per noi siciliani nota) vicenda di cocaina al ministero delle Finanze.

Disallow: /online/cronaca/cocafinanze/interce/interce.html
Disallow: /online/cronaca/cocafinanze/mai/mai.html
Disallow: /online/cronaca/cocafinanze/inte/inte.html
Disallow: /online/cronaca/cocafinanze/interce/interce.html

E cercano di rinchiudere nel dimenticatoio la campagna di stampa sul caso Telekom Serbia.

Disallow: /2003/i/sezioni/politica/telekomserbia3/caso/caso.html
Disallow: /2003/i/sezioni/politica/telekomserbia3/taormina/taormina.html
Disallow: /2003/i/sezioni/politica/telekomserbia3/taormi/taormi.html
Disallow: /2003/i/sezioni/politica/telekomserbia2/dini/dini.html
Disallow: /2003/h/sezioni/politica/telekomserbia/nomi/nomi.html

3) Il sito dell’Ansa non ha troppo a cuore la tecnologia.

Disallow: /iphone/

E mostra una certa allergia verso altri argomenti non proprio secondari.

Disallow: /finanza/
Disallow: /cinema/
Disallow: /elezioni 2008/
Disallow: /ecoenergia/

4) Il Comune di Catania cerca di metter fuorigioco i curiosi.

Disallow: /il_comune/atti-amministrativi/


5) Mentre – dulcis in fundo –  il Comune di Agrigento se ne frega di Brunetta e dà una mazzata alla trasparenza, come se si trattasse di un insulso fenomeno estetico: roba da pizzi e collant insomma.

Disallow: /AGRIGENTO/amministrazione/giunta/
Disallow: /AGRIGENTO/operazione_trasparenza
Disallow: /download/operazione_trasparenza
Disallow: /download/atti_on_line

Questi sono i pochi esempi che ho avuto il tempo di reperire. I tecnici e gli esperti di queste diavolerie informatiche mi perdoneranno per l’uso abusivo di termini specifici. Sono pronto a raccogliere suggerimenti ed eventualmente a correggermi.
Però – ammettetelo – il gioco è istruttivo.
Ah, leggete il primo rigo del robots.txt del sito del ministero delle Finanze.

Giro di prova

Google-Vs-Bing

A quasi due mesi dal lancio di Bing, il motore di ricerca che sembra sancire le nozze tra Microsoft e Yahoo, resta aperto il dibattito sulla sua maggiore o minore efficacia rispetto al superconcorrente Google. Io qualche esperimento l’ho fatto. Ora divertitevi un po’ voi.