O Robots.txt ideal para o Wordpress

O arquivo robots.txt controla o que os robôs dos mecanismos de busca podem ou não indexar.
A maioria dos mecanismos de busca seguem corretamente o que está descrito no mesmo e o funcionamento é bem simples..
O padrão do arquivo é:
User-agent:
Disallow:
Onde depois de User-agent, você coloca o nome do robô que deseja barrar e em Disallow, você informa o arquivo ou diretório que deseja barrar.
O comando Allow, pode ser usado para criar exceções ao Disallow.
No lugar do nome do robô, você pode colocar * para indicar que a regra se aplica a todos e em Disallow, quando você bloqueia um diretório, estará bloqueando todos os arquivos dentro dele.
Pensando nessas regras, resolvi criar um arquivo robots.txt que não permitisse a indexação de nenhuma URL que pudesse prejudicar a indexação dos artigos, em blogs que utilizam o Wordpress.
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/
User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# qualquer endereco que contenha ?
Disallow: /*?*
# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
#Sitemap
Sitemap: http://www.brpoint.net/sitemap.xml
Este arquivo, bloqueará todos os diretórios que não devem ser indexados, além de vários arquivos que podem carregar conteúdo duplicado, diluindo o valor dos artigos.
Caso você use uma estrutura de URLs diferente das que eu utilizo, verifique se o arquivo não está bloqueando páginas válidas.
Exemplos:
- Para quem usa o formato padrão do Wordpress, precisa remover a regra Disallow: /*?*.
- Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$
- Etc...
Em caso de dúvidas, pergunte nos comentários.
No final do arquivo, tomei cuidado para incluir o robô do AdSense, para que páginas não indexadas exibam os anúncios corretamente.
Inclui, também a chamada ao Sitemap que passou a ser aceito no robots.txt pelos maiores mecanismos de busca.
Compare Preços de: Camera Digital, MP3 Player, iPod, Celular, Livros, CD, DVD, Monitor, TV, Notebook, Wii, PS2, PS3
Artigos relacionados
- Gerador de robots.txt do Google
- Remova suas páginas do Google
- Wordpress atualizado
- Bloqueando a indexação das resenhas patrocinadas
- Não crie uma gaiola para o Google













Estava mesmo à procura de um destes já meio feito...
Obrigado
Muito bom, parabéns pelos tutoriais, fazendo de tudo para melhorar a blogosfera!
Uau!!! Gracias amigo!
Nada como um código já mastigado.
Faz algum tempo que eu queria criar um robots.txt para acabar com a indexação dos feeds mas não sabia por onde começar.
mentira
Como seria um robots.txt para o blogger?
Pedro, Diego e Dudu, obrigado.
Ostrock, até onde sei não é possível fazer isso no blogger.
Abraços
Bruno, mais uma vez parabéns pela iniciativa.
Notei que, no diretório de instalação do Poltrona.TV no Bluehost, não tenho alguns diretórios como o /tag/ e o /tags/. Sendo assim, posso tirá-los do corpo do robots.txt, correto?
Outra coisa: uso o Feedburner e habilitei a opção noindex lá. Mesmo assim acha nessária a linha Disallow: /feed/??
Não entendi muito bem essas recomendações:
# Para quem usa o formato padrão do Wordpress, precisa remover a regra Disallow: /*?*.
# Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$
Eu uso a estrutura: http://www.poltrona.tv/postname. O que eu deveria fazer?
Valeu pelas respostas. Creio que devem ser de grande valia para outros leitores também. Abraços.
Obrigado pela resposta, vou aproveitar e questionar outra coisa:
Existe alguma maneira de indicar no site quais partes não devem ser indexadas?
Vi em um post anterior que o yahoo criou uma classe css para isto, exitee algo do tipo para o google e o SE da Microsoft?
Pergunto isso por que não quero, por exemplo, que eles indexem minha barra de navegação, minhas tags e ouras coisas do tipo que não são propriamente um conteúdo.
Obrigado pela atenção.
Bruno,
Seria interessante também desabilitar o /feed/ de todos os artigos. Como eu conseguiria isto ?
*./feed/ ?
No meu robots eu inclui também as seguintes linhas, não me lembro a referência...
Disallow: /wp-rss.php
Disallow: /wp-rss2.php
Disallow: /wp-rdf.php
Disallow: /wp-atom.php
Um dúvida:
Não tenho acesso à pasta blog do site http://blog.wilson.com.pt porque é um ad-on...
Para desabilitar o /fedd será que posso colocar no http://www.wilson.com.pt /robots.txt
Disallow: http://blog.wilson.com.pt/feed/
Ale, o que você não tiver, pode remover sem problemas.
As instruções que dei não afetarão seu esquema de URLs.
Quanto ao feed, se você já usa o noindex, pode retirar.
Ostrock, até o momento, só o Yahoo implementa esta funcionalidade.
Rafael, se você usar a regra:
Disallow: /*feed*
Resolverá o problema, porém, qualquer página ou artigo que tenha feed no nome também será bloqueada.
Uma opção para os demais arquivos pode ser a regra:
Disallow: /wp-*.php$
Isso removeria todas as páginas do próprio wordpress.
Wilson, não, o Google interpreta subdomínios como domínios diferentes, precisa estar na raiz do subdomínio.
Abraços
Será que não seria interessante usar também:
Disallow: /category/
?
Nas páginas de categorias também há o conteúdo (duplicado) dos posts.
[...] um modelo de robots.txt para Wordpress no BrPoint, mas achei que faltaram as categorias e o arquivo. Descobri algo interessante nos [...]
Como faço pra colocar o robots.txt pra funcionar no meu blog? Tenho que fazer um upload desse arquivo? Desculpe pela pergunta básica, mas essas coisas ainda me parecem complicadas. Obrigado.
Migrei meu blog para o wordpress, como faço para inserir este robots.txt? Estou usando o próprio WP, é posível fazer isso?
André, sim, é uma boa opção.
Eu não havia colocado, pois estava usando excerpts nas categorias, ao invés do artigo inteiro.
Bira, sim, basta criar um arquivo com o nome robots.txt na raiz do blog.
Ostrock, wordpress.com ou instalado?
Se for o .com não tem como se for o intalado, como aqui, basta criar um arquivo com este nome na raiz do blog.
Abraços
Sempre tive uma dúvida, se eu tenho o sitemap já adicionado pelo sistema de sitemaps do google, eu preciso ainda me preocupar com o robots.txt ???
Matt, essa linha é mais para o Yahoo e MSN, que também usam o Sitemaps, entendem a linha no robots.txt, mas não possuem um lugar para que você informe, como faz o Google.
Abraço
[...] uma técnica do BrPoint e, um dia depois, elas viraram 2X+Y. A técnica usada foi a adaptação do robots.txt para evitar diretórios inúteis e conteúdo duplicado no [...]
Excelente artigo.
Agora, que tal um artigo sobre segurança no WP ?
Leonardo, não há tanta coisa a ser feita nessa área.
Seria manter o WP atualizado (que raramente faço) e o servidor seguro.
Abraço
[...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar o seu robots.txt de [...]
Fiz a mudança hoje.
Vamos ver em alguns dias o resultado.
Obrigado.
[...] fui no post do Bruno Alves no brpoint.net e procurei seguir as [...]
Alex, depois nos conte o resultado.
Abraço
Você poderia fazer a gentileza de me indicar um artigo sobre simemap, qual plugin usar para criar o meu? Sou blogger iniciante. Muito obrigado pelas dicas do Robots.txt
[...] concluir, desde que o BrPoint o robots.txt ideal, e eu fiz a mudança sugeridas, as visitas desse site caíram absurdamente. Isso já faz quase um [...]
Tava pesquisando no Google sobre os Robots.txt e me deparei com este site http://www.marketingdebusca.com.br/robots-txt/ ao que indica ele cria o um arquivo Robots.txt personalizado, podendo escolher os rôbos de busca e escolher os diretórios para serem bloqueados
Cristian, uso um polugin do WP para fazer isso, o Sitemap Genarator.
William, fazendo na mão é possível ter mais controle sobre o arquivo, para quem precisa de um arquivo bem básico, pode ser uma boa ferramenta.
Abraços
Ô Bruno, quer dizer que se eu criar um arquivo destes os buscadores não vão mais indexar a páginas de feeds?
Outra coisa, o meu blog tem poucas visitas vindas do yahoo, qual o porquê disto? Isto ocorre com você também.
Não é verdade que o Yahoo tem mais visitas que o Google?
Evirelton, esse arquivo dirá ao Google para não seguir o endereço do feed, mas se ele já estiver indexado é preciso removê-lo.
Nas buscas, não, o Google tem acesso muito maior.
Abraço
Bruno. uma duvida
utiilizo o webmasters do google, e gostaria de saber uma coisa: coloquei meu sitemap e meu feed como fontes de sitemap no meu webmasters, porem como o .php do feed esta bloqueado, ele me retornou um erro.. devo desbloquear os feeds para q o webmasters possa acessa-lo? pensei nisso pois imagino que meu site map tenha q ser recriado toda vez q eu fizer um novo post, isso nao eh correto?
TioSolid, use o plugin para criação de sitemap do WP e coloque só ele no Webmaster tools, funciona perfeitamente.
Abraço
[...] Por descuido, desleixo ou até mesmo total falta de conhecimento, muitos Webmasters, que guardam arquivos pessoais em servidores on line, esquecem que o rôbo do Google vai passar por lá e indexar aquele conteúdo caso ele não esteja marcado no robots.txt. [...]
[...] freqüência, recebo a seguinte reclamação: Bruno, desde que implementei o robots.txt que você sugeriu, minhas visitas vindas do Google despencaram, segui todas as dicas do artigo, inclusive adaptando [...]
Bruno, interessante seu artigo e exemplos sobre robots.txt.
Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site (feito em WordPress).
Pensei em criar um robots.txt assim (na raiz):
User-agent: *
Disallow: /
Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (baseado no exemplo deste seu artigo), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) "agora entrem de novo no meu site/robots.txt"?
Charles, o Google (o único que tenho certeza da freqüência), relê o robots.txt uma vez por dia.
Quando o blog estiver pronto, altere o robots, e use o plugin sitemap para avisar ao Google que começou a atualizar o blog.
Vai funcionar sem problemas.
Abraço
tem como adicionar um robots através do "@import" da mesma forma que se faz para CSS?
Ostrock, não, precisa ser um arquivo.
Abraço
Bruno, só por curiosidade, resolvi testar o robots.txt no ferramentas para Webmaster, e pelo menos lá (no teste) o Googlebot tinha acesso aos diretórios que supostamente foram bloqueados, achei e estranho e substituí User-agent: * por User-agent: Googlebot , aí sim bloqueou o acesso aos diretórios. De acordo com esse teste o * não esta bloqueando o acesso de todos os user-agents.
Bruno, este cara parece ter copiado na maior cara de pau o seu post.
http://agarrados.org/o-robotstxt-ideal-para-o-wordpress/
Anny, nas estatísticas do Webmasters Tool, mostra as páginas barradas no robots, e o Google está interpretando corretamente, pode ser um erro da ferramenta.
Charles, aparentemente, sim, ele não faz idéia da besteira que está fazendo.
Abraços
Olá bruno eu uso o blogger e não posso alterar o robots.txt então gostaria de saber se tem como o bloquear os links do buscapé com algum código parecido com esse...
[meta content='index' name='robots'/]
Edson, você pode usar o nofollow para que o Google não siga o link do buscapé. Basta incluir rel="nofollow" na tag do link.
Edson, o blogger não permite o uso do robots.txt, terá que fazer como Anny sugeriu.
Anny, obrigado.
Abraços
[...] cuidar de todos os detalhes. Para fazer seu robots.txt otimizado para blogs, recomendo a leitura deste texto do Bruno Alves e para fazer seu sitemaps a escolha de algum plugin, eu utilizei este [...]
cara esse seu robots ai me causou muitos problemas, se ele bloqueia *.php voce vai ter problemas, vc está bloqueando acesso a paginas php
Julio, pelo que vi no seu blog, você não usa nenhuma página .php, como o robots pode ter te prejudicado?
Além disso, eu informo no texto que as pessoas que usam .php no permalink precisam remover esta linha.
Abraço
.s.sç´lslps.,llsmiomkjm nsjns.sp sisl,ljsdikir jtklfgjfgfkhlj; kjog bi uoiji jiugfjgfk 9 9fiu9ihfukhfkbnfojbkfnjbhfdkhbgnj bijfmnfmngkbvifjig ofjdijgjgiojfingiofjfdi oijfijgiujfijn fkfjigfojmgiddfjifg ikjgijgiffj igjifgjigugkhgjifoy ijigfiufoijifgjin idihjdf.trochasjsdhudhudgfuy
Robots.txt: como usar...
Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e est...
[...] Para saber mais sobre o arquivo robots.txt, veja a página da Wikipedia que trata sobre o assunto. Para os blogueiros de plantão, no BrPoint há um artigo que sugere um robots.txt ideal para o Wordpress. [...]
[...] de ler o artigo onde Andy Beard, mostra que bloquear as resenhas patrocinadas, no robots.txt, pode ser uma solução interessante para todos e ficar alguns dias pensando sobre o assunto, [...]
Olá Bruno,
existe alguns erros de sintaxe que precisam ser corrigidos. Por exemplo a linha "CODE:" precisaria ser removida. Digo isso, pois chequei em alguns "Robots.txt Syntax Checking". A propósito seu post e blog são muito importantes para nós, obrigado.
[...] BRPoint tem um robots bem interessante mas eu precisei fazer algumas mudanças. O código completo está [...]