ParlandoSparlando


Collegamenti sponsorizzati:

 

Il file Robots.txt

Attraverso al meta tag ROBOTS e' possibile regolare l'attivita' di scansione degli spider sulle pagine di un sito web, potendo indicare alcune direttive circa l'archiviazione o meno delle pagine web del sito.

L'uso di questo tag puo' risultare, tuttavia, scomodo in quanto si tratta di uno strumento dedicato ad una pagina singola e riferito a tutti i motori di ricerca, impedendo da un lato di dare agevolmente agli spider indicazioni di scansione su interi gruppi di pagine o addirittura directory, dall'altro non potendo agevolare o impedire ad uno o piu' moroti di ricerca la scansione delle pagine web del sito.

Per ovviare a queste limitazioni, e' nato il Robots Exclusion Standard (www.robotstxt.org/wc/norobots.html) letteralmente Standard per l'esclusione dei robot, ovvero un sistema che permette ai webmaster e agli amministratori di sistema di avere un controllo maggiore su quante e quali pagine HTML far prelevare da quali spider.

Un elenco dei robots/spider e' disponibile a questo link
(www.robotstxt.org/wc/active/html/index.html).

Lo standard per l'esclusione dei robot (ovvero degli spider) si avvale dell'utilizzo di un normale file di testo, da creare attraverso un qualunque text editor (ad esempio il notepad di Windows). Tale file va chiamato robots.txt e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte delle pagine web del sito.

Un errore comune dei webmaster nell'uso del file di testo robots.txt e' proprio sull'errata comprensione di cio' che e' possibile fare con questo file.

E' percio' indispensabile aver chiaro quanto segue: il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.

Cio' significa che non esiste una istruzione per dire allo spider: puoi prelevare questa pagina ma esistono solo istruzioni per dirgli: NON puoi prelevare questa pagina.

Non a caso lo standard si chiama Standard per l'esclusione dei robots.

Se non si ha la necessita' di impedire ai motori ricerca di prelevare alcune pagine (o tutte) dal proprio sito, allora il file robots.txt teoricamente non serve; e' comunque sempre consigliato crearne uno, anche quando il suo contenuto si limita a dare via libera a tutti gli spider.
La sua semplice esistenza nella directory principale del sito evitera' infatti un errore 404 (file non trovato) nei report del proprio server, con conseguenze che variano da server a server, a seconda della loro configurazione.


Dove posizionare il file robots.txt
Premesso quanto precedentemente detto, una volta creato il file robots.txt, esso va pubblicato on-line nella directory principale del sito web.

Ad esempio, se il sito ha indirizzo http://www.nome_del_sito.com, il file dovra' essere accessibile all'indirizzo http://www.nome_del_sito.com/robots.txt.

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire al Robots Exclusion Standard e di seguire le indicazioni del file robots.txt (ovvero la maggior parte dei motori, sebbene non tutti), ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.


Formato di robots.txt
Il file robots.txt contiene una o piu' coppie dei seguenti campi: il campo User-agent ed uno o piu' campi Disallow.

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte.

La sua sintassi e':
User-agent: uno spazio nome_dello_spider

In questo campo e' possibile utilizzare anche l'asterisco * come carattere jolly, per indicare qualunque spider


Il campo Disallow serve a indicare a quali file e/o directory non puo' accedere lo spider indicato nel campo User-agent.

La sintassi di questo campo e':
Disallow: uno spazio nome_del_file_o_directory

In questo campo, con un sapiente uso del simbolo / e' possibile stabilire quali file, directory e sottodirectory interdire agli spider.

Il campo Disallow puo' contenere anche solo un carattere / come carattere jolly, ad indicare qualunque file, directory e sottodirectory, oppure nulla, nel qual caso sta ad indicare che nessun file, directory o sottodirectory e' interdetta.


Nel caso in cui si voglia inserire all'interno del file robots.txt alcuni commenti, e' possibile farlo scrivendo righe di testo il cui primo carattere e' un cancelletto #.
Tali righe verranno completamente ignorate dagli spider dei motori. Esempio:

User-agent: *
# Non voglio che i motori di ricerca entrino
# nella mia directory personale.
Disallow: /personale/



Si consiglia di aderire scrupolosamente alla sintassi indicata presente negli esempi. Ricordarsi di scrivere il nome dei campi esattamente come sono stati indicati, senza dimenticare i due punti e lo spazio prima del contenuto del campo.



Esempio 1
Il seguente esempio dice a Google (googlebot e' il nome dello spider di Google) che NON gli e' permesso prelevare il file testi.html ne' accedere alla directory mp3 e ai suoi contenuti, sottodirectory comprese.


User-agent: googlebot
Disallow: /testi.html
Disallow: /mp3/


Notare come il nome del file testi.html sia preceduto da un carattere / (che indica la directory principale del sito) e come il nome della directory mp3 faccia uso di un carattere / anche in coda per indicare che anche tutte le sue sottodirectory sono comprese nel divieto.


Esempio 2
Nell'esempio seguente si dice a TUTTI gli spider di non prelevare il file temporaneo.html

User-agent: *
Disallow: /temporaneo.html


Notare come il campo User-agent contenga un asterisco * (come carattere jolly), sinonimo di qualunque spider.


Esempio 3
Nell'esempio seguente si impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa (file o cartelle che sia) dal sito.

User-agent: scooter
Disallow: /


Notare come il campo Disallow contenga solo il carattere / utilizzato come carattere jolly, che sta ad indicare qualunque file e directory.


Esempio 4
Nell'esempio seguente si dice a TUTTI i motori di ricerca che NON ci sono file o directory a loro interdette, e che quindi possono prelevare tutti i file del sito.

User-agent: *
Disallow:


Notare come il campo Disallow volutamente lasciato vuoto, stia ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo.


Esempio 5
Questo e' un esempio completo di file robots.txt, che:
- blocca del tutto lo spider scooter di Altavista;
- impedisce allo spider googlebot di Google l'accesso ai files intestazione.html e links.html, alla directory e relative sottodirectory della cartella temporanei e alla directory e relative sottodirectory della cartella cgi-bin;
- lascia libero accesso a tutti gli altri motori di ricerca.

User-agent: scooter
Disallow: /

User-agent: googlebot
Disallow: /intestazione.html
Disallow: /links.html
Disallow: /temporanei/
Disallow: /cgi-bin/

User-agent: *
Disallow:



Esempio 6
Questo esempio mostra come tenere lontani tutti i robot da tutte le proprie pagine web.

User-agent: *
Disallow: /



Esempio 7
Questo esempio mostra come tenere lontano un certo robot dal tutte le proprie pagine web.

User-agent: nomemotore
Disallow: /



Esempio 8
Questo esempio mostra come permettere ad un robot di visitare tutte le cartelle (e relativi file) del sito, e contemporaneamente come impedire l'accesso a tutti gli altri robot a tutti i file e directory:

User-agent: nomemotore
Disallow:

User-agent: *
Disallow: /




Per la verifica del file robots.txt del vostro sito, sulla sua corretta compilazione clicca sul link
(http://tool.motoricerca.info/analizzatore-robots.phtml)

31/12/2006
Copyright © 2000-2008 Parlandosparlando