MICHELEPISANI.IT
 

L'importanza del file robots.txt nell'indicizzazione di un sito web

Il file robots.txt

SEO - L'importanza del file robots.txt nel posizionamento sui motori di ricerca
Giugno 25
07:172014

Il file robots.txt ha la funzione di gestire lo spidering delle varie pagine di un sito e la loro indicizzazione.
Il file robots.txt viene cercato dagli spider solo nella directory principale e non nelle sottodirectory pertanto dovrà essere raggiungibile all'indirizzo http:///www.nomedominio.it/robots.txt ed avere il seguente contenuto:

User-agent: *

Disallow: /eventuale-file-da-escludere.html
Disallow: /eventuale-percorso-da-escludere/

Sitemap: http://www.nomedominio.it/sitemap.xml



Il campo User-agent indica a quale robot/spider sono rivolte le successive regole. Se volessi ad esempio fornire particolari informazioni al robot/spider di Google scriverei User-agent: Googlebot ed a seguire le varie direttive. Nell'esempio precedente invece è stato utilizzato un asterisco e questo significa che le regole fornite valgono per qualsiasi spider.
Il campo Disallow indica l'URL, file e/o cartelle, da bloccare ovvero i percorsi a cui lo spider non dovrà accedere, pertanto considerando quanto detto in merito al campo User-agent è possibile limitare l'accesso ad alcuni file/cartelle a tutti gli spider o solo a quelli di uno o più motori di ricerca come nell'esempio seguente dove viene lasciato libero accesso a tutte le directory da parte degli spider di tutti i motori di ricerca ad eccezione dello spider di Google per la ricerca sul web (Googlebot) a cui è stata limitata l'azione di spidering vietandogli l'accesso alla cartella dei file archiviati:

User-agent: googlebot
Disallow: /archivio/

User-agent: *
Disallow:



Lasciando vuoto il valore di Disallow indico agli spider che non esistono file o cartelle che non devono essere prelevate (è possibile utilizzare anche la formula Allow: / ).
L'istruzione Allow permette di abilitare lo spider alla lettura di file o cartelle all'interno di cartelle precedentemente disabilitate con "Disallow". L'esempio seguente mostra che tutta la cartella archivio è diabilitata alla lettura dello spider ad eccezione di un file al suo interno:

User-agent: *

Disallow: /archivio/
Allow: /archivio/nome-file.html



Attenzione a questa situazione:

User-agent: *
Disallow: /



A meno che non ci sia una valida ragione per farlo, l'impostazione di cui sopra blocca agli spider l'accesso all'intero sito.

E' possibile utilizzare il file robots.txt anche per evitare l'indicizzazione di particolari immagini, quindi se volessimo escluderne una in particolare da Google Immagini dovrò aggiungere al file robots le righe seguenti:

User-agent: Googlebot-Image
Disallow: /immagini/nome-immagine.jpg



In questo caso se al campo Disallow assegnassi il valore "/" indicherei allo spider di Google Immagini di non indicizzare nessuna immagine presente sul sito.

E' buona norma indicare nel file robots.txt anche il percorso della sitemap.xml come mostrato nel primo esempio di codice di questo articolo.


Curiosità:
E' interessante sapere inoltre che per alcuni spider, tra cui quello di Google ma la regola non vale per tutti i motori di ricerca, è possibile indicare dei percorsi di file/cartelle come dei pattern ossia, se si volesse disabilitare l'accesso agli spider a tutte le cartelle il cui nome inizia con "/archivio", come ad esempio "/archivio-2014/", "/archivio-2013/, ecc... posso utilizzare un asterisco dopo la parte comune del nome della cartella (Disallow: /archivio*/). Oppure se volessi non far indicizzare tutti i miei file di Power Point potrei disabilitare l'accesso a tutti i loro percorsi aggiungendo il simbolo del dollaro in fondo all'estensione (Disallow: /*.ppt$)

Tags
Condividi

Autore

Michele Pisani

Michele Pisani

Ho uno spiccato orientamento al problem-solving, se è troppo facile non mi diverto :)
Credo nella volontà e nel cambiamento perchè hanno fatto della mia passione il mio pane quotidiano.
Se devo descrivermi con una sola parola direi... "Concretezza", la mia stretta di mano è una garanzia.

0 Commenti

Non ci sono commenti

Nessuno ha ancora commentato questo articolo, fallo tu per primo!

Scrivi un Commento

Scrivi un Commento

Il tuo indirizzo email non sarà pubblicato.
I campi contrassegnati da un * sono obbligatori

Articoli e Argomenti correlati

Categorie popolari

Iscriviti alla mia newsletter

La tua e-mail con me sarà al sicuro.
Non fornirò mai le tue informazioni a nessuno!

Ultimi commenti

Michele

Ciao domenico,
hai provato con

Michele

Ciao Luca,
hai provato a contattare l'assistenza di Facebook? Attualmente la via migliore …

domenico

ciao, puoi aiutarmi?

ho creato un form che tramite una chiamata mi restituisce una …

Luca

Peccato che fb abbia modificato tutto ed ora sembra non esserci alcun modo per accedere alle …