We are the robots

L’altro giorno, dopo aver letto questo post, mi è venuta la curiosità di andare a sbirciare in giro tra i file robots.txt di vari siti.
Cosa sono i file robots.txt? Sono muri tirati su dagli amministratori di un sito internet per evitare che i motori di ricerca entrino in alcune stanze del sito stesso. In pratica servono per dire a Google, Yahoo e compagnia bella di non indicizzare (leggi: di non rendere pubbliche) certe pagine.
E per essere più chiaro parto subito con gli esempi.

1) Il Corriere.it ha blindato questa stanzetta.

Disallow:/politica/10_febbraio_05/sabrina_ferilli_non_
sono_la_sora_palin_5d9b4bb8-1224-11df-b50d-00144f02aabe.shtml

Ciò significa che ha sottratto agli spider dei motori di ricerca un articolo (che nel caso specifico è stato anche cancellato) riguardante alcune controverse dichiarazioni di Sabrina Ferilli sulla mancanza di gnocca nel Pd.

2) Nel sito di Repubblica.it la situazione si fa più complessa. Qui i robots.txt blindano la notizia dell’arresto nel 2006 del capogruppo dei Ds nel consiglio regionale della Calabria.

Disallow: /2006/08/sezioni/cronaca/ds-arrestato
/ds-arrestato/ds-arrestato.html

Alzano il muro su un’antica (e per noi siciliani nota) vicenda di cocaina al ministero delle Finanze.

Disallow: /online/cronaca/cocafinanze/interce/interce.html
Disallow: /online/cronaca/cocafinanze/mai/mai.html
Disallow: /online/cronaca/cocafinanze/inte/inte.html
Disallow: /online/cronaca/cocafinanze/interce/interce.html

E cercano di rinchiudere nel dimenticatoio la campagna di stampa sul caso Telekom Serbia.

Disallow: /2003/i/sezioni/politica/telekomserbia3/caso/caso.html
Disallow: /2003/i/sezioni/politica/telekomserbia3/taormina/taormina.html
Disallow: /2003/i/sezioni/politica/telekomserbia3/taormi/taormi.html
Disallow: /2003/i/sezioni/politica/telekomserbia2/dini/dini.html
Disallow: /2003/h/sezioni/politica/telekomserbia/nomi/nomi.html

3) Il sito dell’Ansa non ha troppo a cuore la tecnologia.

Disallow: /iphone/

E mostra una certa allergia verso altri argomenti non proprio secondari.

Disallow: /finanza/
Disallow: /cinema/
Disallow: /elezioni 2008/
Disallow: /ecoenergia/

4) Il Comune di Catania cerca di metter fuorigioco i curiosi.

Disallow: /il_comune/atti-amministrativi/


5) Mentre – dulcis in fundo –  il Comune di Agrigento se ne frega di Brunetta e dà una mazzata alla trasparenza, come se si trattasse di un insulso fenomeno estetico: roba da pizzi e collant insomma.

Disallow: /AGRIGENTO/amministrazione/giunta/
Disallow: /AGRIGENTO/operazione_trasparenza
Disallow: /download/operazione_trasparenza
Disallow: /download/atti_on_line

Questi sono i pochi esempi che ho avuto il tempo di reperire. I tecnici e gli esperti di queste diavolerie informatiche mi perdoneranno per l’uso abusivo di termini specifici. Sono pronto a raccogliere suggerimenti ed eventualmente a correggermi.
Però – ammettetelo – il gioco è istruttivo.
Ah, leggete il primo rigo del robots.txt del sito del ministero delle Finanze.

Pubblicato da

Gery Palazzotto

Palermo. Classe 1963. Sei-sette vite vissute sempre sbagliando da solo. Sportivo nonostante tutto.

9 commenti su “We are the robots”

  1. Beh l’ansa blocca la sottosezione /iphone/ perché attraverso quell’indirizzo ottimizzano i contenuti per quella piattaforma, è inutile darli in pasto 2 volte agli spider, sia perché risulterebbero contenuti duplicati, sia perché uno spider che ti gira tra le cartelle richiede comunque risorse che è giusto gestire con attenzione. Idem quando un documento è stato eliminato, meglio evitare che gli spider tentino di raggiungerlo generando un 404…
    Ciao,
    Emanuele

  2. Ratzinger: “Il peccato è desolidarizzazione”. Gli serviva per vincere a Scarabeo.

    Da Spinoza.it (un salvavita)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *