About me

Ciao, mi chiamo Andrea Lavorato, sono un consulente seo specializzato nel dare visibilità ai siti web tramite attivivtà di seo on page ed off page, social ed advertising (campagne PPC).


Se sei interessato a consulenze e/o corsi usa la pagina dei contatti e verrai ricontattato il prima possibile.

Buona navigazione!

Andrea Lavorato

Consulente seo web marketing certified

File robots.txt istruzioni per i motori di ricerca

Il file robots è un normalissimo file di testo codificato in formato UTF-8 che deve essere obbligatoriamente denominato robots.txt e tramite una sintassi particolare istruisce i motori di ricerca quali siano le pagine o directory che non devono essere indicizzate..ma non si limita solo a questo.

Il file robots deve essere posizionato nella directory principale (www.miosito/robots.txt)

Questo file funziona a livello sito ma esiste anche il corrispettivo meta tag robots che puà essere posizionato su una o più pagine a propria discrezione. per capirne il funzionamento visita questa pagina

Il comando principale del file robots è disallow ed indica agli spider di un motore di non accedere ad una o più risorse.

Per capirne meglio il funzionamento vediamone un semplice esempio a titolo esemplificativo:

User-agent: googlebot
Disallow: /documenti.html
Disallow: /audio/

I questo esempio viene indicato allo spider di google (il cui nome è googlebot) di non prelevare il file documenti.html e tutto il contenuto della cartella audio.

Questo specifico file istruisce però tramite l’istruzione User-agent solo lo spider di google (googlebot) ma non tutti gli altri, se si volesse indicarlo a tutti gli spider sarebbe necessario sostituire googlebot con un *.

User-agent: *
Disallow: /documenti.html
Disallow: /audio/

L’attributo dell‘istruzione disallow deve iniziare con / e per le cartelle (esempio audio) deve anche essere chiuso.

A questo link potete trovare un elenco dei crawler dei più popolari motori di ricerca:
http://www.searchenginedictionary.com/spider-names.shtml


Alcuni esempi di file robots pronti all’uso

A: blocco il prelievo a tutti gli spider tutti i file con estensione .doc

User-agent: *
Disallow: /*.doc$

B: Procedura da utilizzare quando il sito è in costruzione e non pronto per essere indicizzato

User-agent: *
Disallow: /

C: Blocco tutte le cartelle tranne la cartella public

User-agent: *
Disallow: /
Allow: /public/

D: Blocco la scansione delle url contenenti il punto interrogativo

User-agent: *
Disallow: /*?

D: Indico agli spider di scansionare al massimo n pagine ogni tot secondi

User-agent: *
Disallow: /personale/
Request-rate : 2/10 
(due pagine ogni 10 secondi)

D: Indico agli spider una tempistica in cui può accedere

User-agent: *
Disallow: /personale/
Visit-time: 10.20-1430  
(dalle 10:20 alle 14:30)

Il file robots per indicare la posizione di una o più sitemap

Un’altra fondamentale funzionalità ed utilità del file robots.txt è indicare e quindi facilitare gli spider dove si trova la sitemap del nostro sito.

La sitemap.xml dovra poi essere inserita nella Google Search Console da dove sarà possibile verificarne la corretta installazione e e sintassi e le eventuali risorse bloccate (anche quelle bloccate per errori nel file robots). Sempre dalla console di google sarà possibile verificare la corretta sintassi del file robots:

User-agent: *
Disallow: /personale/
Sitemap: http:www.tuosito.it/sitemap.xml

Cosa non fare col file robots.txt

Una cosa assolutamente da non fare nel file robots è usare il disallow su risorse che servono nella costruzione e nel parsing delle vostre pagine.

Bloccare risorse come css o javascript (indispensabili per la costruzione della pagina) può determinare un aumento delle risorse bloccate (visibili nella search console) e impedire una corretta indicizzazione delle vostre pagine web.

Per approfondire le funzionalità del file robots.txt potete visitare quest link :
http://www.conman.org/people/spc/robots2.html

Andrea Lavorato

Classe '76, mi racconto

Leave a reply

×