Gerador Robots.txt
Crie e valide arquivos robots.txt para seu site.
Adicionar atraso entre requisições do rastreador (em segundos)
# robots.txt generated by Toolbox # Generated on: 2026-02-23 User-agent: * Disallow:
- Configure regras de user-agent usando as predefinições ou opções manuais
- Adicione URLs de sitemap para ajudar mecanismos de busca a descobrir seu conteúdo
- Copie o conteúdo do robots.txt gerado
- Salve-o como robots.txt no diretório raiz do seu site
O que é robots.txt?
Robots.txt é um arquivo de texto colocado no diretório raiz do seu site que diz aos rastreadores web quais páginas ou seções eles podem ou não acessar. É parte do Protocolo de Exclusão de Robots (REP), um padrão usado por sites para se comunicar com rastreadores web e bots. Este arquivo é essencial para SEO pois ajuda a controlar como os mecanismos de busca indexam seu site.
Por que robots.txt é Importante para SEO?
Um arquivo robots.txt adequadamente configurado é crucial para otimização de mecanismos de busca e gerenciamento de sites:
- Direciona rastreadores de mecanismos de busca para suas páginas mais importantes, melhorando eficiência de indexação
- Otimiza seu orçamento de rastreamento prevenindo que bots desperdicem tempo em páginas sem importância
- Protege diretórios sensíveis como painéis de administração, dados de usuário e ferramentas internas de serem indexados
- Reduz carga do servidor bloqueando bots agressivos e definindo atrasos de rastreamento
Entendendo Diretivas de Robots.txt
- User-agent: Especifica qual bot as regras se aplicam. Use * (asterisco) para direcionar todos os bots
- Allow: Permite explicitamente acesso a caminhos específicos, útil quando combinado com regras Disallow
- Disallow: Bloqueia acesso a caminhos específicos. Um valor vazio significa que nada está bloqueado
- Sitemap: Aponta rastreadores para a localização do seu sitemap XML para melhor descoberta de conteúdo
- Crawl-delay: Define segundos entre requisições. Nota: Google ignora esta diretiva
Correspondência de Padrões de Caminho em Robots.txt
- Use * como curinga para corresponder qualquer sequência de caracteres (ex.: /*.pdf bloqueia todos os arquivos PDF)
- Use $ para corresponder exatamente ao final de uma URL (ex.: /*.php$ bloqueia arquivos PHP)
- Barra final /caminho/ corresponde ao diretório e todo seu conteúdo recursivamente
- Sem barra final /caminho corresponde apenas àquele caminho específico, não subdiretórios
Erros Comuns de Robots.txt a Evitar
- Colocar robots.txt em um subdiretório em vez do domínio raiz (deve estar em seudominio.com/robots.txt)
- Bloquear acidentalmente CSS, JavaScript ou imagens que mecanismos de busca precisam para renderizar suas páginas
- Esquecer de incluir URLs de sitemap, que ajudam rastreadores a descobrir todas suas páginas
- Usar sensibilidade a maiúsculas/minúsculas incorreta - caminhos são sensíveis a maiúsculas/minúsculas na maioria dos servidores
- Criar regras conflitantes que confundem rastreadores sobre quais caminhos são permitidos
Bloqueando Bots de Treinamento de IA
Com o aumento da IA, muitos sites querem prevenir que seu conteúdo seja usado para treinar modelos de IA. Aqui estão os principais rastreadores de IA a considerar bloquear:
- GPTBot e ChatGPT-User: Rastreadores da OpenAI para treinamento e navegação. Bloqueie ambos para prevenir acesso da OpenAI
- Claude-Web e anthropic-ai: Rastreadores da Anthropic. Bloqueie para prevenir treinamento do Claude AI em seu conteúdo
- CCBot: Bot do Common Crawl, cujos dados são usados por muitas empresas de IA para conjuntos de dados de treinamento
Melhores Práticas de Robots.txt
- Sempre coloque robots.txt no diretório raiz do seu domínio (ex.: https://exemplo.com/robots.txt)
- Lembre-se de que caminhos são sensíveis a maiúsculas/minúsculas na maioria dos servidores web
- Teste seu robots.txt usando o Testador de robots.txt do Google Search Console antes de implantar
- Sempre inclua a URL do seu sitemap para ajudar rastreadores a descobrir todo seu conteúdo
- Mantenha regras simples e específicas - regras excessivamente complexas podem causar comportamento inesperado
- Monitore regularmente estatísticas de rastreamento no Google Search Console para garantir indexação adequada
Perguntas Frequentes
Robots.txt realmente bloqueia páginas de aparecerem em resultados de busca?
Não, robots.txt apenas previne rastreamento, não indexação. Páginas ainda podem aparecer em resultados de busca se vinculadas de outros sites. Para bloquear verdadeiramente a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag.
Quão rapidamente mecanismos de busca leem arquivos robots.txt atualizados?
A maioria dos mecanismos de busca armazena robots.txt em cache por cerca de 24 horas. Google tipicamente atualiza seu cache diariamente, mas você pode solicitar um re-rastreamento via Search Console para atualizações mais rápidas.
Posso usar robots.txt para esconder informações sensíveis?
Não, robots.txt é publicamente acessível e apenas uma sugestão para bots bem-comportados. Atores maliciosos podem ignorá-lo. Para dados sensíveis, use autenticação adequada, firewalls ou restrições a nível de servidor.
O que acontece se eu não tiver um arquivo robots.txt?
Sem um arquivo robots.txt, mecanismos de busca assumem que podem rastrear todo seu site. Isso está bom para a maioria dos sites, mas você pode querer controle sobre quais seções são indexadas e com que frequência bots visitam.