Robots.txt生成
ウェブサイト用のrobots.txtファイルを作成・検証。
クローラーリクエスト間の遅延を追加(秒)
# robots.txt generated by Toolbox # Generated on: 2026-02-23 User-agent: * Disallow:
- プリセットまたは手動オプションを使用してUser-Agentルールを設定
- 検索エンジンがコンテンツを発見できるようにサイトマップURLを追加
- 生成されたrobots.txtの内容をコピー
- ウェブサイトのルートディレクトリにrobots.txtとして保存
robots.txtとは?
robots.txtは、ウェブクローラーにアクセス可能なページやセクションを指示する、ウェブサイトのルートディレクトリに配置されるテキストファイルです。これは、ウェブサイトがクローラーやボットと通信するための標準であるロボット排除プロトコル(REP)の一部です。このファイルは、検索エンジンがサイトをインデックスする方法を制御するのに役立つため、SEOに不可欠です。
なぜSEOに重要なのか?
適切に設定されたrobots.txtファイルは、検索エンジン最適化とウェブサイト管理に重要です:
- 検索エンジンのクローラーを最も重要なページに誘導し、インデックス作成の効率を向上させます
- 重要でないページでのボットの時間を防ぎ、クロールバジェットを最適化します
- 管理パネル、ユーザーデータ、内部ツールなどの機密ディレクトリがインデックスされるのを防ぎます
- 攻撃的なボットをブロックし、クロール遅延を設定することで、サーバーの負荷を軽減します
Robots.txtディレクティブの理解
- User-agent: ルールが適用されるボットを指定します。*(アスタリスク)を使用してすべてのボットを対象にします
- Allow: 特定のパスへのアクセスを明示的に許可します。Disallowルールと組み合わせると便利です
- Disallow: 特定のパスへのアクセスをブロックします。空の値は何もブロックされないことを意味します
- Sitemap: コンテンツの発見を良くするために、クローラーにXMLサイトマップの場所を示します
- Crawl-delay: リクエスト間の秒数を設定します。注:Googleはこのディレクティブを無視します
パスパターンマッチング
- *をワイルドカードとして使用して任意の文字列にマッチさせます(例:/*.pdf はすべてのPDFファイルをブロック)
- $を使用してURLの末尾に完全にマッチさせます(例:/*.php$ はPHPファイルをブロック)
- 末尾のスラッシュ /path/ はディレクトリとそのすべての内容に再帰的にマッチします
- 末尾のスラッシュなし /path はその特定のパスのみにマッチし、サブディレクトリにはマッチしません
避けるべき一般的な間違い
- ルートドメインではなくサブディレクトリに配置する(yourdomain.com/robots.txt にある必要があります)
- 検索エンジンがページをレンダリングするために必要なCSS、JavaScript、または画像を誤ってブロックする
- クローラーがすべてのページを発見するのに役立つサイトマップURLを含め忘れる
- 誤った大文字小文字の使用 - ほとんどのサーバーでパスは大文字小文字を区別します
- どのパスが許可されているかについてクローラーを混乱させる競合するルールを作成する
AI学習ボットのブロック
AIの台頭に伴い、多くのウェブサイトがコンテンツがAIモデルの学習に使用されるのを防ぎたいと考えています。ブロックを検討すべき主なAIクローラーは次のとおりです:
- GPTBotとChatGPT-User: OpenAIの学習およびブラウジング用クローラー。OpenAIのアクセスを防ぐために両方をブロックします
- Claude-Webとanthropic-ai: Anthropicのクローラー。Claude AIがコンテンツで学習するのを防ぐためにブロックします
- CCBot: Common Crawlのボット。そのデータは多くのAI企業が学習データセットとして使用しています
ベストプラクティス
- 常にドメインのルートディレクトリに配置してください(例:https://example.com/robots.txt)
- パスはほとんどのWebサーバーで大文字と小文字が区別されることを忘れないでください
- 展開する前にGoogle Search Consoleのrobots.txtテスターを使用してテストしてください
- クローラーがすべてのコンテンツを発見できるように、常にサイトマップURLを含めてください
- ルールはシンプルかつ具体的にしてください - 複雑すぎるルールは予期しない動作を引き起こす可能性があります
- Google Search Consoleでクロール統計を定期的に監視し、適切なインデックス作成を確認してください
よくある質問
robots.txtは検索結果への表示をブロックしますか?
いいえ、robots.txtはクロールのみを防ぎ、インデックス作成は防ぎません。他のサイトからリンクされている場合、ページは検索結果に表示される可能性があります。インデックス作成を本当にブロックするには、noindexメタタグまたはX-Robots-Tag HTTPヘッダーを使用してください。
検索エンジンは更新されたrobots.txtをどれくらい早く読み取りますか?
ほとんどの検索エンジンはrobots.txtを約24時間キャッシュします。Googleは通常毎日キャッシュを更新しますが、Search Consoleで再クロールをリクエストして更新を早めることができます。
機密情報を隠すために使用できますか?
いいえ、robots.txtは公開されており、行儀の良いボットへの提案にすぎません。悪意のあるアクターはそれを無視できます。機密データには、適切な認証、ファイアウォール、またはサーバーレベルの制限を使用してください。
robots.txtファイルがない場合はどうなりますか?
robots.txtファイルがない場合、検索エンジンはサイト全体をクロールできると想定します。ほとんどのサイトではこれで問題ありませんが、どのセクションをインデックスするか、どのくらいの頻度でボットが訪問するかを制御したい場合があります。