L’altro giorno, dopo aver letto questo post, mi è venuta la curiosità di andare a sbirciare in giro tra i file robots.txt di vari siti.
Cosa sono i file robots.txt? Sono muri tirati su dagli amministratori di un sito internet per evitare che i motori di ricerca entrino in alcune stanze del sito stesso. In pratica servono per dire a Google, Yahoo e compagnia bella di non indicizzare (leggi: di non rendere pubbliche) certe pagine.
E per essere più chiaro parto subito con gli esempi.
1) Il Corriere.it ha blindato questa stanzetta.
Disallow:/politica/10_febbraio_05/sabrina_ferilli_non_ sono_la_sora_palin_5d9b4bb8-1224-11df-b50d-00144f02aabe.shtml
Ciò significa che ha sottratto agli spider dei motori di ricerca un articolo (che nel caso specifico è stato anche cancellato) riguardante alcune controverse dichiarazioni di Sabrina Ferilli sulla mancanza di gnocca nel Pd.
2) Nel sito di Repubblica.it la situazione si fa più complessa. Qui i robots.txt blindano la notizia dell’arresto nel 2006 del capogruppo dei Ds nel consiglio regionale della Calabria.
Disallow: /2006/08/sezioni/cronaca/ds-arrestato /ds-arrestato/ds-arrestato.html
Alzano il muro su un’antica (e per noi siciliani nota) vicenda di cocaina al ministero delle Finanze.
Disallow: /online/cronaca/cocafinanze/interce/interce.html Disallow: /online/cronaca/cocafinanze/mai/mai.html Disallow: /online/cronaca/cocafinanze/inte/inte.html Disallow: /online/cronaca/cocafinanze/interce/interce.html
E cercano di rinchiudere nel dimenticatoio la campagna di stampa sul caso Telekom Serbia.
Disallow: /2003/i/sezioni/politica/telekomserbia3/caso/caso.html Disallow: /2003/i/sezioni/politica/telekomserbia3/taormina/taormina.html Disallow: /2003/i/sezioni/politica/telekomserbia3/taormi/taormi.html Disallow: /2003/i/sezioni/politica/telekomserbia2/dini/dini.html Disallow: /2003/h/sezioni/politica/telekomserbia/nomi/nomi.html
3) Il sito dell’Ansa non ha troppo a cuore la tecnologia.
Disallow: /iphone/
E mostra una certa allergia verso altri argomenti non proprio secondari.
Disallow: /finanza/ Disallow: /cinema/ Disallow: /elezioni 2008/ Disallow: /ecoenergia/
4) Il Comune di Catania cerca di metter fuorigioco i curiosi.
Disallow: /il_comune/atti-amministrativi/
5) Mentre – dulcis in fundo – il Comune di Agrigento se ne frega di Brunetta e dà una mazzata alla trasparenza, come se si trattasse di un insulso fenomeno estetico: roba da pizzi e collant insomma.
Disallow: /AGRIGENTO/amministrazione/giunta/ Disallow: /AGRIGENTO/operazione_trasparenza Disallow: /download/operazione_trasparenza Disallow: /download/atti_on_line
Questi sono i pochi esempi che ho avuto il tempo di reperire. I tecnici e gli esperti di queste diavolerie informatiche mi perdoneranno per l’uso abusivo di termini specifici. Sono pronto a raccogliere suggerimenti ed eventualmente a correggermi.
Però – ammettetelo – il gioco è istruttivo.
Ah, leggete il primo rigo del robots.txt del sito del ministero delle Finanze.