Gerador Robots.txt

Crie e valide arquivos robots.txt para seu site.

Predefinições Rápidas

Regras User-Agent

User-Agent

Opções

URLs do Sitemap

Mostrar Crawl-Delay

Adicionar atraso entre requisições do rastreador (em segundos)

Seu robots.txt é válido

robots.txt gerado

# robots.txt generated by Toolbox
# Generated on: 2026-02-23

User-agent: *
Disallow:

Como Usar

Configure regras de user-agent usando as predefinições ou opções manuais
Adicione URLs de sitemap para ajudar mecanismos de busca a descobrir seu conteúdo
Copie o conteúdo do robots.txt gerado
Salve-o como robots.txt no diretório raiz do seu site

O que é robots.txt?

Robots.txt é um arquivo de texto colocado no diretório raiz do seu site que diz aos rastreadores web quais páginas ou seções eles podem ou não acessar. É parte do Protocolo de Exclusão de Robots (REP), um padrão usado por sites para se comunicar com rastreadores web e bots. Este arquivo é essencial para SEO pois ajuda a controlar como os mecanismos de busca indexam seu site.

Por que robots.txt é Importante para SEO?

Um arquivo robots.txt adequadamente configurado é crucial para otimização de mecanismos de busca e gerenciamento de sites:

Direciona rastreadores de mecanismos de busca para suas páginas mais importantes, melhorando eficiência de indexação
Otimiza seu orçamento de rastreamento prevenindo que bots desperdicem tempo em páginas sem importância
Protege diretórios sensíveis como painéis de administração, dados de usuário e ferramentas internas de serem indexados
Reduz carga do servidor bloqueando bots agressivos e definindo atrasos de rastreamento

Entendendo Diretivas de Robots.txt

User-agent: Especifica qual bot as regras se aplicam. Use * (asterisco) para direcionar todos os bots
Allow: Permite explicitamente acesso a caminhos específicos, útil quando combinado com regras Disallow
Disallow: Bloqueia acesso a caminhos específicos. Um valor vazio significa que nada está bloqueado
Sitemap: Aponta rastreadores para a localização do seu sitemap XML para melhor descoberta de conteúdo
Crawl-delay: Define segundos entre requisições. Nota: Google ignora esta diretiva

Correspondência de Padrões de Caminho em Robots.txt

Use * como curinga para corresponder qualquer sequência de caracteres (ex.: /*.pdf bloqueia todos os arquivos PDF)
Use $ para corresponder exatamente ao final de uma URL (ex.: /*.php$ bloqueia arquivos PHP)
Barra final /caminho/ corresponde ao diretório e todo seu conteúdo recursivamente
Sem barra final /caminho corresponde apenas àquele caminho específico, não subdiretórios

Erros Comuns de Robots.txt a Evitar

Colocar robots.txt em um subdiretório em vez do domínio raiz (deve estar em seudominio.com/robots.txt)
Bloquear acidentalmente CSS, JavaScript ou imagens que mecanismos de busca precisam para renderizar suas páginas
Esquecer de incluir URLs de sitemap, que ajudam rastreadores a descobrir todas suas páginas
Usar sensibilidade a maiúsculas/minúsculas incorreta - caminhos são sensíveis a maiúsculas/minúsculas na maioria dos servidores
Criar regras conflitantes que confundem rastreadores sobre quais caminhos são permitidos

Bloqueando Bots de Treinamento de IA

Com o aumento da IA, muitos sites querem prevenir que seu conteúdo seja usado para treinar modelos de IA. Aqui estão os principais rastreadores de IA a considerar bloquear:

GPTBot e ChatGPT-User: Rastreadores da OpenAI para treinamento e navegação. Bloqueie ambos para prevenir acesso da OpenAI
Claude-Web e anthropic-ai: Rastreadores da Anthropic. Bloqueie para prevenir treinamento do Claude AI em seu conteúdo
CCBot: Bot do Common Crawl, cujos dados são usados por muitas empresas de IA para conjuntos de dados de treinamento

Melhores Práticas de Robots.txt

Sempre coloque robots.txt no diretório raiz do seu domínio (ex.: https://exemplo.com/robots.txt)
Lembre-se de que caminhos são sensíveis a maiúsculas/minúsculas na maioria dos servidores web
Teste seu robots.txt usando o Testador de robots.txt do Google Search Console antes de implantar
Sempre inclua a URL do seu sitemap para ajudar rastreadores a descobrir todo seu conteúdo
Mantenha regras simples e específicas - regras excessivamente complexas podem causar comportamento inesperado
Monitore regularmente estatísticas de rastreamento no Google Search Console para garantir indexação adequada

Perguntas Frequentes

Robots.txt realmente bloqueia páginas de aparecerem em resultados de busca?

Não, robots.txt apenas previne rastreamento, não indexação. Páginas ainda podem aparecer em resultados de busca se vinculadas de outros sites. Para bloquear verdadeiramente a indexação, use a meta tag noindex ou o cabeçalho HTTP X-Robots-Tag.

Quão rapidamente mecanismos de busca leem arquivos robots.txt atualizados?

A maioria dos mecanismos de busca armazena robots.txt em cache por cerca de 24 horas. Google tipicamente atualiza seu cache diariamente, mas você pode solicitar um re-rastreamento via Search Console para atualizações mais rápidas.

Posso usar robots.txt para esconder informações sensíveis?

Não, robots.txt é publicamente acessível e apenas uma sugestão para bots bem-comportados. Atores maliciosos podem ignorá-lo. Para dados sensíveis, use autenticação adequada, firewalls ou restrições a nível de servidor.

O que acontece se eu não tiver um arquivo robots.txt?

Sem um arquivo robots.txt, mecanismos de busca assumem que podem rastrear todo seu site. Isso está bom para a maioria dos sites, mas você pode querer controle sobre quais seções são indexadas e com que frequência bots visitam.

Gerador Robots.txt

O que é robots.txt?

Por que robots.txt é Importante para SEO?

Entendendo Diretivas de Robots.txt

Correspondência de Padrões de Caminho em Robots.txt

Erros Comuns de Robots.txt a Evitar

Bloqueando Bots de Treinamento de IA

Melhores Práticas de Robots.txt

Perguntas Frequentes

Ferramentas Relacionadas

Schema.org Generator

JSON Formatter

Cron Expression Builder

Hash Generator