Apesar da sintaxe do robots.txt ser bem simples, algumas pessoas ainda se enrolam em gerá-lo, mesmo existindo modelos prontos, em vários lugares da internet.
Verificando algumas informações na Ferramenta para Webmasters do Google, achei uma ferramenta bem interessante, para geração do robots.txt.

A ferramenta é bem simples de usar, basta clicar no botão adicionar regra e selecionar as opções, na primeira coluna, você pode optar por bloquear ou permitir (lembrando que só o Google suporta, oficialmente, o permitir), na seguinte, seleciona o robô que deve ser afetado, depois o diretório ou arquivo para a regra que está sendo criada. Depois disso, basta clicar em adicionar que o arquivo será alterado.
Uma vez criada a regra, você poderá alterar ou excluir a mesma ou adicionar novas regras. Quando estiver satisfeito, basta baixar o arquivo e enviar para a raiz do seu servidor.
Achei a ferramenta bastante interessante e prática para quem não sabe o protocolo do robots.txt ou tem medo de digitar algo errado (já que qualquer erro nesse arquivo, pode ser fatal para a indexação do site). Só ficou faltando a opção de incluir a linha do Sitemap e a lista de robôs, poderia ser atualizada com todos, ao invés de precisarmos digitar qualquer um que seja diferente de todos ou dos que são usados pelo Google.
Fala Bruno Blz?? Estava a uns 3 dias adotando os procedimentos pós produção do meu port online e do meu blog e só lembrei de fazer o robots pq esse o seu post. Provavelmente teria esquecido, embora saibamos que ele serve para reforçar o aviso da busca, exceto em configurações mais complexas de restrição e etc. para os mecanismos de busca.
A configuração de fato é bem simples e o “three hit combo” ADICIONAR URL + INCLUIR SITEMAP + INCLUIR ROBOTS é fundamental para o SEO de qq projeto.
Aproveito para avisar que lancei meu blog essa semana e com isso, estou voltando de forma ativa para a blogosfera, dessa vez em um blog particular e não mais no código laranja.
abração e nos encontramos em próximos posts.
De referir que deve ter-se em atenção os bad robot e excluí-los.
Veja a listagem em http://www.kloth.net/internet/badbots.php
Grande post, Bruno.
Em meu arquivo robots.txt consta apenas:
User-agent:*
Disallow:
Sitemap: http://www.brasilazul.com.br/sitemap.xml
Esta sintaxe está correta ou devo usar a sintaxe abaixo?
#Sitemap
Sitemap: http://www.brpoint.net/sitemap.xml
E quanto à indexação de imagens pelo Google, é importante usar a sintaxe seguinte?
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
Creio que este assunto interessa a muita gente.
Um grande abraço.
Julio
materia boa pra quem ta por fora de robots
é isso ai
abraço