File robots.txt istruzioni per i motori di ricerca
- Agosto 19, 2017
- by
- Worked
Il file robots è un normalissimo file di testo codificato in formato UTF-8 che deve essere obbligatoriamente denominato robots.txt e tramite una sintassi particolare istruisce i motori di ricerca quali siano le pagine o directory che non devono essere indicizzate..ma non si limita solo a questo.
Il file robots deve essere posizionato nella directory principale (www.miosito/robots.txt)
Questo file funziona a livello sito ma esiste anche il corrispettivo meta tag robots che puà essere posizionato su una o più pagine a propria discrezione. per capirne il funzionamento visita questa pagina
Il comando principale del file robots è disallow ed indica agli spider di un motore di non accedere ad una o più risorse.
Per capirne meglio il funzionamento vediamone un semplice esempio a titolo esemplificativo:
User-agent: googlebot
Disallow: /documenti.html
Disallow: /audio/
I questo esempio viene indicato allo spider di google (il cui nome è googlebot) di non prelevare il file documenti.html e tutto il contenuto della cartella audio.
Questo specifico file istruisce però tramite l’istruzione User-agent solo lo spider di google (googlebot) ma non tutti gli altri, se si volesse indicarlo a tutti gli spider sarebbe necessario sostituire googlebot con un *.
User-agent: *
Disallow: /documenti.html
Disallow: /audio/
L’attributo dell‘istruzione disallow deve iniziare con / e per le cartelle (esempio audio) deve anche essere chiuso.
A questo link potete trovare un elenco dei crawler dei più popolari motori di ricerca:
http://www.searchenginedictionary.com/spider-names.shtml
Alcuni esempi di file robots pronti all’uso
A: blocco il prelievo a tutti gli spider tutti i file con estensione .doc
User-agent: *
Disallow: /*.doc$
B: Procedura da utilizzare quando il sito è in costruzione e non pronto per essere indicizzato
User-agent: *
Disallow: /
C: Blocco tutte le cartelle tranne la cartella public
User-agent: *
Disallow: /
Allow: /public/
D: Blocco la scansione delle url contenenti il punto interrogativo
User-agent: *
Disallow: /*?
D: Indico agli spider di scansionare al massimo n pagine ogni tot secondi
User-agent: *
Disallow: /personale/
Request-rate : 2/10 (due pagine ogni 10 secondi)
D: Indico agli spider una tempistica in cui può accedere
User-agent: *
Disallow: /personale/
Visit-time: 10.20-1430 (dalle 10:20 alle 14:30)
Il file robots per indicare la posizione di una o più sitemap
Un’altra fondamentale funzionalità ed utilità del file robots.txt è indicare e quindi facilitare gli spider dove si trova la sitemap del nostro sito.
La sitemap.xml dovra poi essere inserita nella Google Search Console da dove sarà possibile verificarne la corretta installazione e e sintassi e le eventuali risorse bloccate (anche quelle bloccate per errori nel file robots). Sempre dalla console di google sarà possibile verificare la corretta sintassi del file robots:
User-agent: *
Disallow: /personale/
Sitemap: http:www.tuosito.it/sitemap.xml
Cosa non fare col file robots.txt
Una cosa assolutamente da non fare nel file robots è usare il disallow su risorse che servono nella costruzione e nel parsing delle vostre pagine.
Bloccare risorse come css o javascript (indispensabili per la costruzione della pagina) può determinare un aumento delle risorse bloccate (visibili nella search console) e impedire una corretta indicizzazione delle vostre pagine web.
Per approfondire le funzionalità del file robots.txt potete visitare quest link :
http://www.conman.org/people/spc/robots2.html