Assine a newsletter gratuita do BrPoint
Powered by MaxBlogPress 

O Robots.txt ideal para o WordPress

r2d2

O arquivo robots.txt controla o que os robôs dos mecanismos de busca podem ou não indexar.

A maioria dos mecanismos de busca seguem corretamente o que está descrito no mesmo e o funcionamento é bem simples..

O padrão do arquivo é:

User-agent:
Disallow:

Onde depois de User-agent, você coloca o nome do robô que deseja barrar e em Disallow, você informa o arquivo ou diretório que deseja barrar.

O comando Allow, pode ser usado para criar exceções ao Disallow.

No lugar do nome do robô, você pode colocar * para indicar que a regra se aplica a todos e em Disallow, quando você bloqueia um diretório, estará bloqueando todos os arquivos dentro dele.

Pensando nessas regras, resolvi criar um arquivo robots.txt que não permitisse a indexação de nenhuma URL que pudesse prejudicar a indexação dos artigos, em blogs que utilizam o WordPress.

CODE:
User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# qualquer endereco que contenha ?
Disallow: /*?*

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

#Sitemap

Sitemap: http://www. brpoint.net/sitemap.xml

Este arquivo, bloqueará todos os diretórios que não devem ser indexados, além de vários arquivos que podem carregar conteúdo duplicado, diluindo o valor dos artigos.

Caso você use uma estrutura de URLs diferente das que eu utilizo, verifique se o arquivo não está bloqueando páginas válidas.

Exemplos:

  • Para quem usa o formato padrão do WordPress, precisa remover a regra Disallow: /*?*.
  • Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$
  • Etc...

Em caso de dúvidas, pergunte nos comentários.

No final do arquivo, tomei cuidado para incluir o robô do AdSense, para que páginas não indexadas exibam os anúncios corretamente.

Inclui, também a chamada ao Sitemap que passou a ser aceito no robots.txt pelos maiores mecanismos de busca.

Compartilhe e Guarde:
  • StumbleUpon
  • ueba
  • Rec6
  • linkk
  • dihitt
  • linkloko
  • websapiens
  • linkto
  • Technorati
  • imera
  • Faves
  • Google
  • MySpace
  • del.icio.us
  • TwitThis

Artigos Relacionados

58 Comentários

  1. comment-top

    Estava mesmo à procura de um destes já meio feito…
    Obrigado

    comment-bottom
  2. comment-top

    Muito bom, parabéns pelos tutoriais, fazendo de tudo para melhorar a blogosfera!

    comment-bottom
  3. comment-top

    Uau!!! Gracias amigo!

    Nada como um código já mastigado.
    Faz algum tempo que eu queria criar um robots.txt para acabar com a indexação dos feeds mas não sabia por onde começar.

    comment-bottom
  4. comment-top

    Como seria um robots.txt para o blogger?

    comment-bottom
  5. comment-top

    Pedro, Diego e Dudu, obrigado.

    Ostrock, até onde sei não é possível fazer isso no blogger.

    Abraços

    comment-bottom
  6. comment-top

    Bruno, mais uma vez parabéns pela iniciativa.

    Notei que, no diretório de instalação do Poltrona.TV no Bluehost, não tenho alguns diretórios como o /tag/ e o /tags/. Sendo assim, posso tirá-los do corpo do robots.txt, correto?

    Outra coisa: uso o Feedburner e habilitei a opção noindex lá. Mesmo assim acha nessária a linha Disallow: /feed/??

    Não entendi muito bem essas recomendações:

    # Para quem usa o formato padrão do WordPress, precisa remover a regra Disallow: /*?*.

    # Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$

    Eu uso a estrutura: http://www.poltrona.tv/postname. O que eu deveria fazer?

    Valeu pelas respostas. Creio que devem ser de grande valia para outros leitores também. Abraços.

    comment-bottom
  7. comment-top

    Obrigado pela resposta, vou aproveitar e questionar outra coisa:

    Existe alguma maneira de indicar no site quais partes não devem ser indexadas?

    Vi em um post anterior que o yahoo criou uma classe css para isto, exitee algo do tipo para o google e o SE da Microsoft?

    Pergunto isso por que não quero, por exemplo, que eles indexem minha barra de navegação, minhas tags e ouras coisas do tipo que não são propriamente um conteúdo.

    Obrigado pela atenção.

    comment-bottom
  8. comment-top

    Bruno,

    Seria interessante também desabilitar o /feed/ de todos os artigos. Como eu conseguiria isto ?

    *./feed/ ?

    comment-bottom
  9. comment-top

    No meu robots eu inclui também as seguintes linhas, não me lembro a referência…

    Disallow: /wp-rss.php
    Disallow: /wp-rss2.php
    Disallow: /wp-rdf.php
    Disallow: /wp-atom.php

    comment-bottom
  10. comment-top

    Um dúvida:

    Não tenho acesso à pasta blog do site http://blog.wilson.com.pt porque é um ad-on…

    Para desabilitar o /fedd será que posso colocar no http://www.wilson.com.pt /robots.txt

    Disallow: http://blog.wilson.com.pt/feed/

    comment-bottom
  11. comment-top

    Ale, o que você não tiver, pode remover sem problemas.

    As instruções que dei não afetarão seu esquema de URLs.

    Quanto ao feed, se você já usa o noindex, pode retirar.

    Ostrock, até o momento, só o Yahoo implementa esta funcionalidade.

    Rafael, se você usar a regra:

    Disallow: /*feed*

    Resolverá o problema, porém, qualquer página ou artigo que tenha feed no nome também será bloqueada.

    Uma opção para os demais arquivos pode ser a regra:

    Disallow: /wp-*.php$

    Isso removeria todas as páginas do próprio WordPress.

    Wilson, não, o Google interpreta subdomínios como domínios diferentes, precisa estar na raiz do subdomínio.

    Abraços

    comment-bottom
  12. comment-top

    Será que não seria interessante usar também:

    Disallow: /category/

    ?

    Nas páginas de categorias também há o conteúdo (duplicado) dos posts.

    comment-bottom
  13. comment-top

    [...] um modelo de robots.txt para WordPress no BrPoint, mas achei que faltaram as categorias e o arquivo. Descobri algo interessante nos [...]

    comment-bottom
  14. comment-top

    Como faço pra colocar o robots.txt pra funcionar no meu blog? Tenho que fazer um upload desse arquivo? Desculpe pela pergunta básica, mas essas coisas ainda me parecem complicadas. Obrigado.

    comment-bottom
  15. comment-top

    Migrei meu blog para o WordPress, como faço para inserir este robots.txt? Estou usando o próprio WP, é posível fazer isso?

    comment-bottom
  16. comment-top

    André, sim, é uma boa opção.

    Eu não havia colocado, pois estava usando excerpts nas categorias, ao invés do artigo inteiro.

    Bira, sim, basta criar um arquivo com o nome robots.txt na raiz do blog.

    Ostrock, WordPress.com ou instalado?

    Se for o .com não tem como se for o intalado, como aqui, basta criar um arquivo com este nome na raiz do blog.

    Abraços

    comment-bottom
  17. comment-top

    Sempre tive uma dúvida, se eu tenho o sitemap já adicionado pelo sistema de sitemaps do google, eu preciso ainda me preocupar com o robots.txt ???

    comment-bottom
  18. comment-top

    Matt, essa linha é mais para o Yahoo e MSN, que também usam o Sitemaps, entendem a linha no robots.txt, mas não possuem um lugar para que você informe, como faz o Google.

    Abraço

    comment-bottom
  19. comment-top

    [...] uma técnica do BrPoint e, um dia depois, elas viraram 2X+Y. A técnica usada foi a adaptação do robots.txt para evitar diretórios inúteis e conteúdo duplicado no [...]

    comment-bottom
  20. comment-top

    Excelente artigo.

    Agora, que tal um artigo sobre segurança no WP ?

    comment-bottom
  21. comment-top

    Leonardo, não há tanta coisa a ser feita nessa área.

    Seria manter o WP atualizado (que raramente faço) e o servidor seguro.

    Abraço

    comment-bottom
  22. comment-top

    [...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar o seu robots.txt de [...]

    comment-bottom
  23. comment-top

    Fiz a mudança hoje.
    Vamos ver em alguns dias o resultado.
    Obrigado.

    comment-bottom
  24. comment-top

    [...] fui no post do Bruno Alves no brpoint.net e procurei seguir as [...]

    comment-bottom
  25. comment-top

    Alex, depois nos conte o resultado.

    Abraço

    comment-bottom
  26. comment-top

    Você poderia fazer a gentileza de me indicar um artigo sobre simemap, qual plugin usar para criar o meu? Sou blogger iniciante. Muito obrigado pelas dicas do Robots.txt

    comment-bottom
  27. comment-top

    [...] concluir, desde que o BrPoint o robots.txt ideal, e eu fiz a mudança sugeridas, as visitas desse site caíram absurdamente. Isso já faz quase um [...]

    comment-bottom
  28. comment-top

    Tava pesquisando no Google sobre os Robots.txt e me deparei com este site http://www.marketingdebusca.com.br/robots-txt/ ao que indica ele cria o um arquivo Robots.txt personalizado, podendo escolher os rôbos de busca e escolher os diretórios para serem bloqueados

    comment-bottom
  29. comment-top

    Cristian, uso um polugin do WP para fazer isso, o Sitemap Genarator.

    William, fazendo na mão é possível ter mais controle sobre o arquivo, para quem precisa de um arquivo bem básico, pode ser uma boa ferramenta.

    Abraços

    comment-bottom
  30. comment-top

    Ô Bruno, quer dizer que se eu criar um arquivo destes os buscadores não vão mais indexar a páginas de feeds?

    Outra coisa, o meu blog tem poucas visitas vindas do yahoo, qual o porquê disto? Isto ocorre com você também.

    Não é verdade que o Yahoo tem mais visitas que o Google?

    comment-bottom
  31. comment-top

    Evirelton, esse arquivo dirá ao Google para não seguir o endereço do feed, mas se ele já estiver indexado é preciso removê-lo.

    Nas buscas, não, o Google tem acesso muito maior.

    Abraço

    comment-bottom
  32. comment-top

    Bruno. uma duvida
    utiilizo o webmasters do google, e gostaria de saber uma coisa: coloquei meu sitemap e meu feed como fontes de sitemap no meu webmasters, porem como o .php do feed esta bloqueado, ele me retornou um erro.. devo desbloquear os feeds para q o webmasters possa acessa-lo? pensei nisso pois imagino que meu site map tenha q ser recriado toda vez q eu fizer um novo post, isso nao eh correto?

    comment-bottom
  33. comment-top

    TioSolid, use o plugin para criação de sitemap do WP e coloque só ele no Webmaster tools, funciona perfeitamente.

    Abraço

    comment-bottom
  34. comment-top

    [...] Por descuido, desleixo ou até mesmo total falta de conhecimento, muitos Webmasters, que guardam arquivos pessoais em servidores on line, esquecem que o rôbo do Google vai passar por lá e indexar aquele conteúdo caso ele não esteja marcado no robots.txt. [...]

    comment-bottom
  35. comment-top

    [...] freqüência, recebo a seguinte reclamação: Bruno, desde que implementei o robots.txt que você sugeriu, minhas visitas vindas do Google despencaram, segui todas as dicas do artigo, inclusive adaptando [...]

    comment-bottom
  36. comment-top

    Bruno, interessante seu artigo e exemplos sobre robots.txt.
    Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site (feito em WordPress).
    Pensei em criar um robots.txt assim (na raiz):
    User-agent: *
    Disallow: /
    Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (baseado no exemplo deste seu artigo), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
    Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) “agora entrem de novo no meu site/robots.txt”?

    comment-bottom
  37. comment-top

    Charles, o Google (o único que tenho certeza da freqüência), relê o robots.txt uma vez por dia.

    Quando o blog estiver pronto, altere o robots, e use o plugin sitemap para avisar ao Google que começou a atualizar o blog.

    Vai funcionar sem problemas.

    Abraço

    comment-bottom
  38. comment-top

    tem como adicionar um robots através do “@import” da mesma forma que se faz para CSS?

    comment-bottom
  39. comment-top

    Ostrock, não, precisa ser um arquivo.

    Abraço

    comment-bottom
  40. comment-top

    Bruno, só por curiosidade, resolvi testar o robots.txt no ferramentas para Webmaster, e pelo menos lá (no teste) o Googlebot tinha acesso aos diretórios que supostamente foram bloqueados, achei e estranho e substituí User-agent: * por User-agent: Googlebot , aí sim bloqueou o acesso aos diretórios. De acordo com esse teste o * não esta bloqueando o acesso de todos os user-agents.

    comment-bottom
  41. comment-top

    Bruno, este cara parece ter copiado na maior cara de pau o seu post.
    http://agarrados.org/o-robotstxt-ideal-para-o-WordPress/

    comment-bottom
  42. comment-top

    Anny, nas estatísticas do Webmasters Tool, mostra as páginas barradas no robots, e o Google está interpretando corretamente, pode ser um erro da ferramenta.

    Charles, aparentemente, sim, ele não faz idéia da besteira que está fazendo.

    Abraços

    comment-bottom
  43. comment-top

    Olá bruno eu uso o blogger e não posso alterar o robots.txt então gostaria de saber se tem como o bloquear os links do buscapé com algum código parecido com esse…
    [meta content='index' name='robots'/]

    comment-bottom
  44. comment-top

    Edson, você pode usar o nofollow para que o Google não siga o link do buscapé. Basta incluir rel=”nofollow” na tag do link.

    comment-bottom
  45. comment-top

    Edson, o blogger não permite o uso do robots.txt, terá que fazer como Anny sugeriu.

    Anny, obrigado.

    Abraços

    comment-bottom
  46. comment-top

    [...] cuidar de todos os detalhes. Para fazer seu robots.txt otimizado para blogs, recomendo a leitura deste texto do Bruno Alves e para fazer seu sitemaps a escolha de algum plugin, eu utilizei este [...]

    comment-bottom
  47. comment-top

    cara esse seu robots ai me causou muitos problemas, se ele bloqueia *.php voce vai ter problemas, vc está bloqueando acesso a paginas php

    comment-bottom
  48. comment-top

    Julio, pelo que vi no seu blog, você não usa nenhuma página .php, como o robots pode ter te prejudicado?

    Além disso, eu informo no texto que as pessoas que usam .php no permalink precisam remover esta linha.

    Abraço

    comment-bottom
  49. comment-top

    .s.sç´lslps.,llsmiomkjm nsjns.sp sisl,ljsdikir jtklfgjfgfkhlj; kjog bi uoiji jiugfjgfk 9 9fiu9ihfukhfkbnfojbkfnjbhfdkhbgnj bijfmnfmngkbvifjig ofjdijgjgiojfingiofjfdi oijfijgiujfijn fkfjigfojmgiddfjifg ikjgijgiffj igjifgjigugkhgjifoy ijigfiufoijifgjin idihjdf.trochasjsdhudhudgfuy

    comment-bottom
  50. comment-top

    mentira

    comment-bottom
  51. comment-top

    Robots.txt: como usar…

    Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e est…

    comment-bottom
  52. comment-top

    [...] Para saber mais sobre o arquivo robots.txt, veja a página da Wikipedia que trata sobre o assunto. Para os blogueiros de plantão, no BrPoint há um artigo que sugere um robots.txt ideal para o WordPress. [...]

    comment-bottom
  53. comment-top

    [...] de ler o artigo onde Andy Beard, mostra que bloquear as resenhas patrocinadas, no robots.txt, pode ser uma solução interessante para todos e ficar alguns dias pensando sobre o assunto, [...]

    comment-bottom
  54. comment-top

    Olá Bruno,
    existe alguns erros de sintaxe que precisam ser corrigidos. Por exemplo a linha “CODE:” precisaria ser removida. Digo isso, pois chequei em alguns “Robots.txt Syntax Checking”. A propósito seu post e blog são muito importantes para nós, obrigado.

    comment-bottom
  55. comment-top

    [...] BRPoint tem um robots bem interessante mas eu precisei fazer algumas mudanças. O código completo está [...]

    comment-bottom
  56. Charles Müller
    15/maio/2008 at 10:58
    comment-top

    Uma dica:
    Quem (eu, por exemplo) não quer que conteúdo velho (e até removido) do site seja obtido via WayBack Machine (www.archive.org) pode usar isto no robots.txt:

    User-agent: ia_archiver
    Disallow: /

    comment-bottom
  57. Charles Müller
    15/maio/2008 at 13:28
    comment-top

    Olá Bruno. Volto ao seu (famoso) post, agora pretendo implementar no site o modelo de robots.txt que você sugere. Nisto surgiram algumas dúvidas.
    1) Minha estrutura de URL será http://www.meudominio.com/nomedacategoria/nomedopost mas, fico com certo receio em bloquear *.php, os robôs não precisam varrer o conteúdo que estas páginas (scripts) geram?
    2) O mesmo para o caracter ?, se bem que só a URL dos resultados de busca usa-o.
    3) A string /tag/ é usada para formar “índices” das tags (etiquetas de assunto) do blog, bloqueá-las não reduz a exibição nos buscadores?
    4) Pelo que consta no artigo e comentários acima, posso bloquear os feeds via robots.txt ou via opção noindex do Feedburner. Mas, qual a razão de bloquear os feeds? Isto não irá impedir que o site figure no Google Blog Search e no Technorati?

    :) Valeu.

    comment-bottom
  58. comment-top

    [...] mesmo dia, não acho que precise ser algo nesse estilo, mas não é porque escrevi uma vez sobre o robots.txt que nunca mais posso voltar nesse assunto. Uma mudança no protocolo, uma novidade na maneira como [...]

    comment-bottom

RSS feed para os comentários deste artigo.

Desculpe, mas os comentários para este artigo estão fechados.