Una delle attività che non si vedono lato utente nella gestione di un sito web, ma che invece risultano utilissime, è sicuramente la compilazione del file robots.txt.

Questo file, creato per la prima volta nel 1994 da Martijn Koster (anche sviluppatore di Aliweb, uno dei primissimi motori di ricerca), permette di dialogare con i webbot della rete. Il file robots.txt segnala loro quali percorsi del sito devono essere esclusi dalla scansione di un sito ed evitare un sovraccarico di richieste. Quest’ultimo rischio porterebbe svantaggi da ambo le parti. Al sito che consumerebbe banda inutilmente e al crawler che scansionerebbe N pagine probabilmente inutili.

La presenza del file robots.txt, insomma, attraverso una serie di indicazioni (o direttive), diventa indispensabile per ogni sito internet. Addirittura se ne consiglia sempre la presenza anche nei casi in cui un sito non avesse particolari percorsi da bloccare. Soprattutto in ottica SEO.

Questa serie di indicazioni sono definite Robots Exclusion Protocol REP (protocollo di esclusione dei robots, ndr) e sin dalla creazione del file robots, gli standard sono stati sempre gli stessi. Almeno dal 1996.

Ed è nel fattore tempo che Google si inserisce con una importantissima novità. Rendendo il suo parser del file robots.txt open-source per tutta la comunità.

La sensazionalità dell’evento risiede nel fatto che così facendo, non solo il motore facilita lo sviluppo di potenziali progetti di ricerca open source per il futuro, ma fa capire quanto sia intenzionato a contribuire alla creazione di nuove direttive standard del file file robots.txt. Di fatto, mai aggiornate dagli anni novanta.

L’assenza di nuove librerie di direttive, infatti, generalmente rende la vita dei webmaster piuttosto complicata in quanto nel momento in cui nel file robots.txt viene dichiarata una regola, non si ha la certezza che la stessa verrà osservata dal crawler di turno. Ed ovviamente oltre a vanificare parte del lavoro, interviene la frustrazione di non poter risolvere un problema.

Robots.txt, le proposte di Google

Google, tramite un comunicato ufficiale, tiene a precisare che non intende cambiare le direttive valide sin dal 1994, ma provare a definire nuovi scenari non definiti per l’analisi e la corrispondenza di robots.txt per il web moderno come ad esempio il ritardo di scansione, il nofollow e il noindex. In particolare:

  1. La possibilità di analizzare file robots.txt non solo tramite protocollo HTTP, ma anche attraverso FTP o CoAP.
  2. Analizzare almeno i primi 500 kibibyte di un file robots.txt.
  3. Adottare un nuovo standard di tempo massimo di memorizzazione nella cache di almeno 24 ore o l’utilizzo del valore della direttiva cache, se disponibile. 

La proposta di standard del file robots.txt è nella fase di bozza e la stessa sarà aggiornata progressivamente con l’arrivo di feedback da parte della community composta principalmente da webmaster, sviluppatori, etc

Google’s robots.txt parser is now open source