Il file robots.txt ha la funzione di gestire lo spidering delle varie pagine di un sito e la loro indicizzazione.
Il file robots.txt viene cercato dagli spider solo nella directory principale e non nelle sottodirectory pertanto dovrà essere raggiungibile all'indirizzo https:///www.nomedominio.it/robots.txt ed avere il seguente contenuto:
User-agent: *
Disallow: /eventuale-file-da-escludere.html
Disallow: /eventuale-percorso-da-escludere/
Sitemap: http://www.nomedominio.it/sitemap.xml
Il campo User-agent indica a quale robot/spider sono rivolte le successive regole. Se volessi ad esempio fornire particolari informazioni al robot/spider di Google scriverei User-agent: Googlebot ed a seguire le varie direttive. Nell'esempio precedente invece è stato utilizzato un asterisco e questo significa che le regole fornite valgono per qualsiasi spider.
Il campo Disallow indica l'URL, file e/o cartelle, da bloccare ovvero i percorsi a cui lo spider non dovrà accedere, pertanto considerando quanto detto in merito al campo User-agent è possibile limitare l'accesso ad alcuni file/cartelle a tutti gli spider o solo a quelli di uno o più motori di ricerca come nell'esempio seguente dove viene lasciato libero accesso a tutte le directory da parte degli spider di tutti i motori di ricerca ad eccezione dello spider di Google per la ricerca sul web (Googlebot) a cui è stata limitata l'azione di spidering vietandogli l'accesso alla cartella dei file archiviati:
User-agent: googlebot
Disallow: /archivio/
User-agent: *
Disallow:
Lasciando vuoto il valore di Disallow indico agli spider che non esistono file o cartelle che non devono essere prelevate (è possibile utilizzare anche la formula Allow: / ).
L'istruzione Allow permette di abilitare lo spider alla lettura di file o cartelle all'interno di cartelle precedentemente disabilitate con "Disallow". L'esempio seguente mostra che tutta la cartella archivio è diabilitata alla lettura dello spider ad eccezione di un file al suo interno:
User-agent: *
Disallow: /archivio/
Allow: /archivio/nome-file.html
Attenzione a questa situazione:
User-agent: *
Disallow: /
A meno che non ci sia una valida ragione per farlo, l'impostazione di cui sopra blocca agli spider l'accesso all'intero sito.
E' possibile utilizzare il file robots.txt anche per evitare l'indicizzazione di particolari immagini, quindi se volessimo escluderne una in particolare da Google Immagini dovrò aggiungere al file robots le righe seguenti:
User-agent: Googlebot-Image
Disallow: /immagini/nome-immagine.jpg
In questo caso se al campo Disallow assegnassi il valore "/" indicherei allo spider di Google Immagini di non indicizzare nessuna immagine presente sul sito.
E' buona norma indicare nel file robots.txt anche il percorso della sitemap.xml come mostrato nel primo esempio di codice di questo articolo.
Curiosità:
E' interessante sapere inoltre che per alcuni spider, tra cui quello di Google ma la regola non vale per tutti i motori di ricerca, è possibile indicare dei percorsi di file/cartelle come dei pattern ossia, se si volesse disabilitare l'accesso agli spider a tutte le cartelle il cui nome inizia con "/archivio", come ad esempio "/archivio-2014/", "/archivio-2013/, ecc... posso utilizzare un asterisco dopo la parte comune del nome della cartella (Disallow: /archivio*/). Oppure se volessi non far indicizzare tutti i miei file di Power Point potrei disabilitare l'accesso a tutti i loro percorsi aggiungendo il simbolo del dollaro in fondo all'estensione (Disallow: /*.ppt$)
Nessuno ha ancora commentato questo articolo, fallo tu per primo!
Scrivi un Commento