File robots.txt istruzioni per i motori di ricerca

Agosto 19, 2017
by
Worked

Il file robots è un normalissimo file di testo codificato in formato UTF-8 che deve essere obbligatoriamente denominato robots.txt e tramite una sintassi particolare istruisce i motori di ricerca quali siano le pagine o directory che non devono essere indicizzate..ma non si limita solo a questo.

Il file robots deve essere posizionato nella directory principale (www.miosito/robots.txt)

Questo file funziona a livello sito ma esiste anche il corrispettivo meta tag robots che puà essere posizionato su una o più pagine a propria discrezione. per capirne il funzionamento visita questa pagina

Il comando principale del file robots è disallow ed indica agli spider di un motore di non accedere ad una o più risorse.

Per capirne meglio il funzionamento vediamone un semplice esempio a titolo esemplificativo:

User-agent: googlebot
Disallow: /documenti.html
Disallow: /audio/

I questo esempio viene indicato allo spider di google (il cui nome è googlebot) di non prelevare il file documenti.html e tutto il contenuto della cartella audio.

Questo specifico file istruisce però tramite l’istruzione User-agent solo lo spider di google (googlebot) ma non tutti gli altri, se si volesse indicarlo a tutti gli spider sarebbe necessario sostituire googlebot con un *.

User-agent: *
Disallow: /documenti.html
Disallow: /audio/

L’attributo dell‘istruzione disallow deve iniziare con / e per le cartelle (esempio audio) deve anche essere chiuso.

A questo link potete trovare un elenco dei crawler dei più popolari motori di ricerca:
http://www.searchenginedictionary.com/spider-names.shtml

Alcuni esempi di file robots pronti all’uso

A: blocco il prelievo a tutti gli spider tutti i file con estensione .doc

User-agent: *
Disallow: /*.doc$

B: Procedura da utilizzare quando il sito è in costruzione e non pronto per essere indicizzato

User-agent: *
Disallow: /

C: Blocco tutte le cartelle tranne la cartella public

User-agent: *
Disallow: /
Allow: /public/

D: Blocco la scansione delle url contenenti il punto interrogativo

User-agent: *
Disallow: /*?

D: Indico agli spider di scansionare al massimo n pagine ogni tot secondi

User-agent: *
Disallow: /personale/
Request-rate : 2/10 (due pagine ogni 10 secondi)

D: Indico agli spider una tempistica in cui può accedere

User-agent: *
Disallow: /personale/
Visit-time: 10.20-1430 (dalle 10:20 alle 14:30)

Il file robots per indicare la posizione di una o più sitemap

Un’altra fondamentale funzionalità ed utilità del file robots.txt è indicare e quindi facilitare gli spider dove si trova la sitemap del nostro sito.

La sitemap.xml dovra poi essere inserita nella Google Search Console da dove sarà possibile verificarne la corretta installazione e e sintassi e le eventuali risorse bloccate (anche quelle bloccate per errori nel file robots). Sempre dalla console di google sarà possibile verificare la corretta sintassi del file robots:

User-agent: *
Disallow: /personale/
Sitemap: http:www.tuosito.it/sitemap.xml

Cosa non fare col file robots.txt

Una cosa assolutamente da non fare nel file robots è usare il disallow su risorse che servono nella costruzione e nel parsing delle vostre pagine.

Bloccare risorse come css o javascript (indispensabili per la costruzione della pagina) può determinare un aumento delle risorse bloccate (visibili nella search console) e impedire una corretta indicizzazione delle vostre pagine web.

Per approfondire le funzionalità del file robots.txt potete visitare quest link :
http://www.conman.org/people/spc/robots2.html