O Duvida cruel que temos, publicar ou não, ser inexado ou não, esse é o Arquivo Robots.txt

O Duvida cruel que temos, publicar ou não, ser inexado ou não, esse é o Arquivo Robots.txt

Todos sabem que o Google, Microsoft, Yahoo e qualquer outro site de busca, possuem “robôs”, que vasculham a web, indexando e classificando sites, periodicamente passando e repassando pelos sites. Imagine os trabalhos que eles têm para “ler” todo o site, podendo em alguns momentos acessar pastas temporárias de programa ou arquivos confidencias.

 

 

 

Mas saiba que você pode facilitar a vida desses robôs, bem como a sua, protegendo os arquivos privados e consequentemente, indexando mais rápido o seu site. Para isto existe um padrão do arquivo Robots.txt, onde fica toda a informação relevante aos robôs de busca. Quem já mexeu nos arquivos de configuração do Linux, vai notar as semelhanças, mas para aqueles que não possuem nenhum conhecimento de configuração, não precisam ficar desesperados, afinal é muito simples configurá-lo.

 

Por padrão o arquivo fica na raiz do site e é altamente recomendado que este arquivo exista em todos os sites. Não precisa fazer todas as configurações, basta apenas usar a configuração default:

 

User-agent: *
Disallow:

 

User-agent significa qual será o mecanismo de busca, como estamos usando o asterisco (*) que significa “tudo”, então é todos os mecanismos de busca poderão indexar seu site e o Disallow:, sem nada, significa que podem indexar todos os arquivos do site. Mas também podemos usar:

 

User-agent: *
Allow: /

 

Neste caso, estamos especificando com o “Allow”, que todos os arquivos do site podem ser indexados.

 

Caso você queria bloquear uma pasta, você utiliza:

 

User-agent: *
Disallow: /restrito/

 

Assim, a pasta restrito e todo seu conteúdo será ignorado. Mas se dentro desta pasta, existir um arquivo que você queria indexar, o especifique abaixo do comando Disallow:

 

User-agent: *
Disallow: /restrito/
Allow: /restrito/file.html

 

Especificar “Robô”

 

É possível criar regras especificas para cada “robô” de busca, neste caso, é necessário colocar o nome do robô em User-agent:

 

User-agent: Googlebot
Allow: /

 

Como isto, o Google irá indexar de acordo com as regras especificadas para ele e os outros mecanismos de busca irão ignorar estas regras. Quando for fazer isto não esqueça de especificar as regras aos outros “robôs”:

 

User-agent: * #Todos mecanismos de busca
Disallow: /commets/

 

User-agent: Googlebot #voltado ao Google
Allow: /

 

Mesmo o “User-agent:*” vindo primeiro o Google sempre seguirá as regras contidas em “User-agent:Googlebot”. O sinal de talha (#), significa que é comentário e será ignorado, pelos “robôs”, serve apenas para os administradores do arquivo.

 

Agente de busca

 

Não sabemos todos, mas para facilitar sua vida, abaixo estão listados alguns “robôs”:

 

  • Googlebot – Google
  • Googlebot-Image – Google Imagens
  • Slurp – Yahoo
  • yahoo-mmcrawler – Yahoo Imagens
  • MSNBot – Live Search
  • psbot – Live Search Imagens

 

Caracteres especiais

 

Também é possível utilizar caracteres especiais, como:

 

User-agent: *
Disallow: /private/
Allow: /private/*/image

 

Neste caso, todos os arquivos da pasta private não serão indexados, exceto os arquivos contido na pasta image dois níveis abaixo.

 

É possível bloquear apenas arquivos com uma extensão em especifico.

 

User-agent: *
Disallow: /.php$

 

O caractere cifrão ($) foi usado para especificar que os arquivos com extensão .php não devem ser indexados.

 

É isso, vejam aqui o link do arquivo Robots.txt do próprio Google.

 

Leave a Reply

Your email address will not be published.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Abrir chat
💬 Posso Ajudar?