O Robots.txt ideal para o WordPress

r2d2

O arquivo robots.txt controla o que os robôs dos mecanismos de busca podem ou não indexar.

A maioria dos mecanismos de busca seguem corretamente o que está descrito no mesmo e o funcionamento é bem simples..

O padrão do arquivo é:

User-agent:
Disallow:

Onde depois de User-agent, você coloca o nome do robô que deseja barrar e em Disallow, você informa o arquivo ou diretório que deseja barrar.

O comando Allow, pode ser usado para criar exceções ao Disallow.

No lugar do nome do robô, você pode colocar * para indicar que a regra se aplica a todos e em Disallow, quando você bloqueia um diretório, estará bloqueando todos os arquivos dentro dele.

Pensando nessas regras, resolvi criar um arquivo robots.txt que não permitisse a indexação de nenhuma URL que pudesse prejudicar a indexação dos artigos, em blogs que utilizam o WordPress.

CODE:
User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# qualquer endereco que contenha ?
Disallow: /*?*

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

#Sitemap

Sitemap: http://www.brpoint.net/sitemap.xml

Este arquivo, bloqueará todos os diretórios que não devem ser indexados, além de vários arquivos que podem carregar conteúdo duplicado, diluindo o valor dos artigos.

Caso você use uma estrutura de URLs diferente das que eu utilizo, verifique se o arquivo não está bloqueando páginas válidas.

Exemplos:

  • Para quem usa o formato padrão do WordPress, precisa remover a regra Disallow: /*?*.
  • Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$
  • Etc...

Em caso de dúvidas, pergunte nos comentários.

No final do arquivo, tomei cuidado para incluir o robô do AdSense, para que páginas não indexadas exibam os anúncios corretamente.

Inclui, também a chamada ao Sitemap que passou a ser aceito no robots.txt pelos maiores mecanismos de busca.

Compartilhe e Guarde:
  • StumbleUpon
  • Enviar para o Ueba
  • Rec6
  • Enviar para o LinkK
  • Enviar para o DiHitt
  • Enviar para o LinkLoko
  • Enviar para o WebSapiens
  • Enviar para o LinkTo
  • Technorati
  • Enviar para o Imera
  • Faves
  • Google Bookmarks
  • MySpace
  • del.icio.us
  • Facebook
tabs-top

63 Comentários para “O Robots.txt ideal para o WordPress”

  1. Pedro disse:

    Estava mesmo à procura de um destes já meio feito…
    Obrigado

  2. Diego Xavier disse:

    Muito bom, parabéns pelos tutoriais, fazendo de tudo para melhorar a blogosfera!

  3. dudu disse:

    Uau!!! Gracias amigo!

    Nada como um código já mastigado.
    Faz algum tempo que eu queria criar um robots.txt para acabar com a indexação dos feeds mas não sabia por onde começar.

  4. Ostrock disse:

    Como seria um robots.txt para o blogger?

  5. BrPoint disse:

    Pedro, Diego e Dudu, obrigado.

    Ostrock, até onde sei não é possível fazer isso no blogger.

    Abraços

  6. Ale Rocha disse:

    Bruno, mais uma vez parabéns pela iniciativa.

    Notei que, no diretório de instalação do Poltrona.TV no Bluehost, não tenho alguns diretórios como o /tag/ e o /tags/. Sendo assim, posso tirá-los do corpo do robots.txt, correto?

    Outra coisa: uso o Feedburner e habilitei a opção noindex lá. Mesmo assim acha nessária a linha Disallow: /feed/??

    Não entendi muito bem essas recomendações:

    # Para quem usa o formato padrão do WordPress, precisa remover a regra Disallow: /*?*.

    # Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$

    Eu uso a estrutura: http://www.poltrona.tv/postname. O que eu deveria fazer?

    Valeu pelas respostas. Creio que devem ser de grande valia para outros leitores também. Abraços.

  7. Ostrock disse:

    Obrigado pela resposta, vou aproveitar e questionar outra coisa:

    Existe alguma maneira de indicar no site quais partes não devem ser indexadas?

    Vi em um post anterior que o yahoo criou uma classe css para isto, exitee algo do tipo para o google e o SE da Microsoft?

    Pergunto isso por que não quero, por exemplo, que eles indexem minha barra de navegação, minhas tags e ouras coisas do tipo que não são propriamente um conteúdo.

    Obrigado pela atenção.

  8. Bruno,

    Seria interessante também desabilitar o /feed/ de todos os artigos. Como eu conseguiria isto ?

    *./feed/ ?

  9. No meu robots eu inclui também as seguintes linhas, não me lembro a referência…

    Disallow: /wp-rss.php
    Disallow: /wp-rss2.php
    Disallow: /wp-rdf.php
    Disallow: /wp-atom.php

  10. Wilson disse:

    Um dúvida:

    Não tenho acesso à pasta blog do site http://blog.wilson.com.pt porque é um ad-on…

    Para desabilitar o /fedd será que posso colocar no http://www.wilson.com.pt /robots.txt

    Disallow: http://blog.wilson.com.pt/feed/

  11. BrPoint disse:

    Ale, o que você não tiver, pode remover sem problemas.

    As instruções que dei não afetarão seu esquema de URLs.

    Quanto ao feed, se você já usa o noindex, pode retirar.

    Ostrock, até o momento, só o Yahoo implementa esta funcionalidade.

    Rafael, se você usar a regra:

    Disallow: /*feed*

    Resolverá o problema, porém, qualquer página ou artigo que tenha feed no nome também será bloqueada.

    Uma opção para os demais arquivos pode ser a regra:

    Disallow: /wp-*.php$

    Isso removeria todas as páginas do próprio WordPress.

    Wilson, não, o Google interpreta subdomínios como domínios diferentes, precisa estar na raiz do subdomínio.

    Abraços

  12. André disse:

    Será que não seria interessante usar também:

    Disallow: /category/

    ?

    Nas páginas de categorias também há o conteúdo (duplicado) dos posts.

  13. [...] um modelo de robots.txt para WordPress no BrPoint, mas achei que faltaram as categorias e o arquivo. Descobri algo interessante nos [...]

  14. Bira Jones disse:

    Como faço pra colocar o robots.txt pra funcionar no meu blog? Tenho que fazer um upload desse arquivo? Desculpe pela pergunta básica, mas essas coisas ainda me parecem complicadas. Obrigado.

  15. Ostrock disse:

    Migrei meu blog para o WordPress, como faço para inserir este robots.txt? Estou usando o próprio WP, é posível fazer isso?

  16. Bruno Alves disse:

    André, sim, é uma boa opção.

    Eu não havia colocado, pois estava usando excerpts nas categorias, ao invés do artigo inteiro.

    Bira, sim, basta criar um arquivo com o nome robots.txt na raiz do blog.

    Ostrock, WordPress.com ou instalado?

    Se for o .com não tem como se for o intalado, como aqui, basta criar um arquivo com este nome na raiz do blog.

    Abraços

  17. Matt disse:

    Sempre tive uma dúvida, se eu tenho o sitemap já adicionado pelo sistema de sitemaps do google, eu preciso ainda me preocupar com o robots.txt ???

  18. Bruno Alves disse:

    Matt, essa linha é mais para o Yahoo e MSN, que também usam o Sitemaps, entendem a linha no robots.txt, mas não possuem um lugar para que você informe, como faz o Google.

    Abraço

  19. [...] uma técnica do BrPoint e, um dia depois, elas viraram 2X+Y. A técnica usada foi a adaptação do robots.txt para evitar diretórios inúteis e conteúdo duplicado no [...]

  20. Leonardo disse:

    Excelente artigo.

    Agora, que tal um artigo sobre segurança no WP ?

  21. Bruno Alves disse:

    Leonardo, não há tanta coisa a ser feita nessa área.

    Seria manter o WP atualizado (que raramente faço) e o servidor seguro.

    Abraço

  22. [...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar o seu robots.txt de [...]

  23. Alex disse:

    Fiz a mudança hoje.
    Vamos ver em alguns dias o resultado.
    Obrigado.

  24. [...] fui no post do Bruno Alves no brpoint.net e procurei seguir as [...]

  25. Bruno Alves disse:

    Alex, depois nos conte o resultado.

    Abraço

  26. Cristian disse:

    Você poderia fazer a gentileza de me indicar um artigo sobre simemap, qual plugin usar para criar o meu? Sou blogger iniciante. Muito obrigado pelas dicas do Robots.txt

  27. [...] concluir, desde que o BrPoint o robots.txt ideal, e eu fiz a mudança sugeridas, as visitas desse site caíram absurdamente. Isso já faz quase um [...]

  28. William disse:

    Tava pesquisando no Google sobre os Robots.txt e me deparei com este site http://www.marketingdebusca.com.br/robots-txt/ ao que indica ele cria o um arquivo Robots.txt personalizado, podendo escolher os rôbos de busca e escolher os diretórios para serem bloqueados

  29. Bruno Alves disse:

    Cristian, uso um polugin do WP para fazer isso, o Sitemap Genarator.

    William, fazendo na mão é possível ter mais controle sobre o arquivo, para quem precisa de um arquivo bem básico, pode ser uma boa ferramenta.

    Abraços

  30. Erivelton L. disse:

    Ô Bruno, quer dizer que se eu criar um arquivo destes os buscadores não vão mais indexar a páginas de feeds?

    Outra coisa, o meu blog tem poucas visitas vindas do yahoo, qual o porquê disto? Isto ocorre com você também.

    Não é verdade que o Yahoo tem mais visitas que o Google?

  31. Bruno Alves disse:

    Evirelton, esse arquivo dirá ao Google para não seguir o endereço do feed, mas se ele já estiver indexado é preciso removê-lo.

    Nas buscas, não, o Google tem acesso muito maior.

    Abraço

  32. TioSolid disse:

    Bruno. uma duvida
    utiilizo o webmasters do google, e gostaria de saber uma coisa: coloquei meu sitemap e meu feed como fontes de sitemap no meu webmasters, porem como o .php do feed esta bloqueado, ele me retornou um erro.. devo desbloquear os feeds para q o webmasters possa acessa-lo? pensei nisso pois imagino que meu site map tenha q ser recriado toda vez q eu fizer um novo post, isso nao eh correto?

  33. Bruno Alves disse:

    TioSolid, use o plugin para criação de sitemap do WP e coloque só ele no Webmaster tools, funciona perfeitamente.

    Abraço

  34. [...] Por descuido, desleixo ou até mesmo total falta de conhecimento, muitos Webmasters, que guardam arquivos pessoais em servidores on line, esquecem que o rôbo do Google vai passar por lá e indexar aquele conteúdo caso ele não esteja marcado no robots.txt. [...]

  35. [...] freqüência, recebo a seguinte reclamação: Bruno, desde que implementei o robots.txt que você sugeriu, minhas visitas vindas do Google despencaram, segui todas as dicas do artigo, inclusive adaptando [...]

  36. Charles disse:

    Bruno, interessante seu artigo e exemplos sobre robots.txt.
    Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site (feito em WordPress).
    Pensei em criar um robots.txt assim (na raiz):
    User-agent: *
    Disallow: /
    Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (baseado no exemplo deste seu artigo), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
    Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) “agora entrem de novo no meu site/robots.txt”?

  37. Bruno Alves disse:

    Charles, o Google (o único que tenho certeza da freqüência), relê o robots.txt uma vez por dia.

    Quando o blog estiver pronto, altere o robots, e use o plugin sitemap para avisar ao Google que começou a atualizar o blog.

    Vai funcionar sem problemas.

    Abraço

  38. Ostrock disse:

    tem como adicionar um robots através do “@import” da mesma forma que se faz para CSS?

  39. Bruno Alves disse:

    Ostrock, não, precisa ser um arquivo.

    Abraço

  40. Anny Rose disse:

    Bruno, só por curiosidade, resolvi testar o robots.txt no ferramentas para Webmaster, e pelo menos lá (no teste) o Googlebot tinha acesso aos diretórios que supostamente foram bloqueados, achei e estranho e substituí User-agent: * por User-agent: Googlebot , aí sim bloqueou o acesso aos diretórios. De acordo com esse teste o * não esta bloqueando o acesso de todos os user-agents.

  41. Charles disse:

    Bruno, este cara parece ter copiado na maior cara de pau o seu post.
    http://agarrados.org/o-robotstxt-ideal-para-o-WordPress/

  42. Bruno Alves disse:

    Anny, nas estatísticas do Webmasters Tool, mostra as páginas barradas no robots, e o Google está interpretando corretamente, pode ser um erro da ferramenta.

    Charles, aparentemente, sim, ele não faz idéia da besteira que está fazendo.

    Abraços

  43. Edson Luiz disse:

    Olá bruno eu uso o blogger e não posso alterar o robots.txt então gostaria de saber se tem como o bloquear os links do buscapé com algum código parecido com esse…
    [meta content='index' name='robots'/]

  44. Anny Rose disse:

    Edson, você pode usar o nofollow para que o Google não siga o link do buscapé. Basta incluir rel=”nofollow” na tag do link.

  45. Bruno Alves disse:

    Edson, o blogger não permite o uso do robots.txt, terá que fazer como Anny sugeriu.

    Anny, obrigado.

    Abraços

  46. [...] cuidar de todos os detalhes. Para fazer seu robots.txt otimizado para blogs, recomendo a leitura deste texto do Bruno Alves e para fazer seu sitemaps a escolha de algum plugin, eu utilizei este [...]

  47. Julio disse:

    cara esse seu robots ai me causou muitos problemas, se ele bloqueia *.php voce vai ter problemas, vc está bloqueando acesso a paginas php

    • Bruno Alves disse:

      Julio, pelo que vi no seu blog, você não usa nenhuma página .php, como o robots pode ter te prejudicado?

      Além disso, eu informo no texto que as pessoas que usam .php no permalink precisam remover esta linha.

      Abraço

  48. joiooiioioi disse:

    .s.sç´lslps.,llsmiomkjm nsjns.sp sisl,ljsdikir jtklfgjfgfkhlj; kjog bi uoiji jiugfjgfk 9 9fiu9ihfukhfkbnfojbkfnjbhfdkhbgnj bijfmnfmngkbvifjig ofjdijgjgiojfingiofjfdi oijfijgiujfijn fkfjigfojmgiddfjifg ikjgijgiffj igjifgjigugkhgjifoy ijigfiufoijifgjin idihjdf.trochasjsdhudhudgfuy

  49. EnterNauta disse:

    Robots.txt: como usar…

    Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e est…

  50. [...] Para saber mais sobre o arquivo robots.txt, veja a página da Wikipedia que trata sobre o assunto. Para os blogueiros de plantão, no BrPoint há um artigo que sugere um robots.txt ideal para o WordPress. [...]

  51. [...] de ler o artigo onde Andy Beard, mostra que bloquear as resenhas patrocinadas, no robots.txt, pode ser uma solução interessante para todos e ficar alguns dias pensando sobre o assunto, [...]

  52. AulaTube disse:

    Olá Bruno,
    existe alguns erros de sintaxe que precisam ser corrigidos. Por exemplo a linha “CODE:” precisaria ser removida. Digo isso, pois chequei em alguns “Robots.txt Syntax Checking”. A propósito seu post e blog são muito importantes para nós, obrigado.

  53. [...] BRPoint tem um robots bem interessante mas eu precisei fazer algumas mudanças. O código completo está [...]

  54. Charles Müller disse:

    Uma dica:
    Quem (eu, por exemplo) não quer que conteúdo velho (e até removido) do site seja obtido via WayBack Machine (www.archive.org) pode usar isto no robots.txt:

    User-agent: ia_archiver
    Disallow: /

  55. Charles Müller disse:

    Olá Bruno. Volto ao seu (famoso) post, agora pretendo implementar no site o modelo de robots.txt que você sugere. Nisto surgiram algumas dúvidas.
    1) Minha estrutura de URL será http://www.meudominio.com/nomedacategoria/nomedopost mas, fico com certo receio em bloquear *.php, os robôs não precisam varrer o conteúdo que estas páginas (scripts) geram?
    2) O mesmo para o caracter ?, se bem que só a URL dos resultados de busca usa-o.
    3) A string /tag/ é usada para formar “índices” das tags (etiquetas de assunto) do blog, bloqueá-las não reduz a exibição nos buscadores?
    4) Pelo que consta no artigo e comentários acima, posso bloquear os feeds via robots.txt ou via opção noindex do Feedburner. Mas, qual a razão de bloquear os feeds? Isto não irá impedir que o site figure no Google Blog Search e no Technorati?

    :) Valeu.

  56. [...] mesmo dia, não acho que precise ser algo nesse estilo, mas não é porque escrevi uma vez sobre o robots.txt que nunca mais posso voltar nesse assunto. Uma mudança no protocolo, uma novidade na maneira como [...]

  57. Cultura Livre disse:

    Porque tirar o diretório /tag/ e não o /pages/? A possibilidade de ter o conteúdo duplicado no /pages/ não é maior?

    No meu caso tirei os dois, minha audiência caiu de 1300 por dia para 600 :-(

    E que diretório é este /tags/ no plural que eu n achei? Obrigado!

    Poderia dar uma olhada pra mim: http://www.culturalivre.com/robots.txt

    E mais textos sobre Wordpress podem ser encontrados aqui: http://www.culturalivre.com/wordpress/

    Obrigado!

  58. Edu Giansante disse:

    Fala Bruno, tudo bom?

    Sempre acompanho o BRpoint por rss, parabéns!

    Estou com um problema no e-dublin (uso wp instalado)

    O blog simplesmente sumiu dos resultados de busca (sempre ocupava primeiras posicoes).

    achei que era um problema depois que instalei o robots
    http://www.e-dublin.com.br/robots.txt

    mas pareec estar correto, apesar de diferente

    sera que por algum motivo fui punido? ele tb sumiu do yahoo, mas no bing esta normal

    fiquei preocupado!

    • Bruno Alves disse:

      Dei uma olhada nas páginas indexadas (no cache) e elas estão completamente diferentes das páginas quando eu acesso direto. Você fez alguma alteração ou tem algum script para mudar o site quando é acessado pelo Google? Se for a segunda opção, está explicado o motivo de sumir das buscas.

      Pelo robots que está no ar, hoje, não tenho como dizer se tinha algum erro.

      Abs

  59. [...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar o seu robots.txt de [...]

  60. Icaro Alencar disse:

    Bom dia Brunno, gostei muito desse tutorial sobre robots, eu estou com um problema e não sei como resolver, eu despenquei no analytics e hoje eu estou no vermelho literalmente com eles, o que poderia ter dado errado? apareceu muitos erros no google webmasters e eu não sei como resolver… o que poderia ser?

Comente

XHTML: Você pode usar as tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>