IL FILE ROBOTS.TXT
Il file robot.txt è un file di testo (scritto banalmente con il notepad di windows) che serve a dare indicazioni agli spider sugli elementi del sito da indicizzare.
Va collocato nella root principale.
Il file robot.txt contiene le seguenti righe di codice:
User-agent:
Disallow:
Nel campo User-agent va inserito il nome dell spider.
Inserendo il simbolo * il comando sarà riferito a tutti gli spider.
Il comando Disallow serve ad escludere le cartelle che non devono essere indicizzate.
Nel campo Disallow dirai cosa non vuoi che lo spider prelevi.
Nel primo esempio che segue comunichi a tutti gli spider che non ci sono file da non prelevare:
User-agent: *
Disallow:
In questo secondo esempio il file robot.txt comunica a Googlebot di non prelevare il file posizionamento_motori_di_ricerca.html
User-agent: googlebot
Disallow: /posizionamento_motori_di_ricerca.html
In questo terzo esempio comunichi a google di non prendere niente nella cartella posizionamento_motori_di_ricerca
User-agent: googlebot
Disallow: /posizionamento_motori_di_ricerca/
Di seguito un elenco di spider:
http://www.robotstxt.org/wc/active/html/index.html
Nonostante tutto ci sono alcuni motori di ricerca che non seguono questo tipo di indicazioni.
|