GPTBotを許可すべきか迷ったら、「集客が目的のサイトなら許可、コンテンツ自体が商品のサイトは学習用だけ選択的に拒否」が原則です。Cloudflareが2025年8月に公開した調査では、AIクローラーのトラフィックの約8割が学習目的で、ClaudeBotとGPTBotの2つだけで観測クロール全体の約5割を占めました。本記事では主要AIクローラー16種のユーザーエージェント(UA)一覧と、当サイト(0120.co.jp)で実際に運用しているrobots.txtの実例をそのまま公開します。
AIクローラーとは
AIクローラーとは、OpenAI・Anthropic・Perplexityなどの生成AI企業が、AIモデルの学習やAI検索の回答生成のためにWebサイトの情報を自動収集するプログラムです。従来のGooglebotが「検索結果に表示するため」にクロールするのに対し、AIクローラーは目的が3系統に分かれており、この区別を理解しないままrobots.txtを設定すると「学習は拒否したかったのにAI検索からの流入まで失った」という事故が起きます。
AIクローラーの3分類
| 分類 | 目的 | 代表例 | ブロックした場合の影響 |
|---|---|---|---|
| 学習用(Training) | AIモデルの訓練データ収集 | GPTBot、ClaudeBot、Google-Extended、CCBot | 将来のAIモデルが自社情報を「知識」として持たなくなる |
| 検索用(Search) | AI検索の索引作成・回答生成 | OAI-SearchBot、Claude-SearchBot、PerplexityBot | ChatGPT検索・Claude・Perplexityの回答に引用されなくなる |
| ユーザー操作用(User Action) | 利用者の質問に応じたリアルタイム取得 | ChatGPT-User、Claude-User、Perplexity-User | ユーザーが「このページを読んで」と指示しても取得できない |
Cloudflareが2025年8月28日に公開した調査「AI crawler traffic by purpose and industry」によると、AIボットのクロールトラフィックの約80%が学習目的で、検索用・ユーザー操作用は少数派です。つまり、サイト運営者が見るアクセスログの大半は「学習用クローラー」によるものです。
なお、中小企業のAI導入率は20.4%(中小企業基盤整備機構、2026年3月調査)にとどまりますが、AI側は導入の有無にかかわらず全企業のサイトをクロールしています。「自社はAIを使っていないから関係ない」とはならない点に注意が必要です。
主要AIクローラー一覧【2026年版UA早見表】
各社の公式ドキュメント(OpenAI Bot文書、Anthropic公式ヘルプ、Perplexity開発者ドキュメント、Googleクローラー文書、いずれも2026年6月時点)に基づく一覧です。robots.txtの「User-agent:」行には、この表の「UAトークン」をそのまま記述します。
| 運営企業 | UAトークン | 用途 | robots.txt遵守 |
|---|---|---|---|
| OpenAI | GPTBot | 基盤モデルの学習 | 遵守 |
| OpenAI | OAI-SearchBot | ChatGPT検索への表示 | 遵守 |
| OpenAI | ChatGPT-User | ユーザー操作起点の取得 | ユーザー起点のため対象外の場合あり |
| OpenAI | OAI-AdsBot | 広告ランディングページの検証 | 遵守 |
| Anthropic | ClaudeBot | モデルの学習・改善 | 遵守 |
| Anthropic | Claude-SearchBot | 検索品質の向上 | 遵守 |
| Anthropic | Claude-User | ユーザー操作起点の取得 | 遵守 |
| Perplexity | PerplexityBot | Perplexity検索への表示 | 遵守 |
| Perplexity | Perplexity-User | ユーザー操作起点の取得 | 原則無視(公式が明記) |
| Googlebot | Google検索・AI Overviews | 遵守 | |
| Google-Extended | Gemini学習・グラウンディング制御 | 遵守(制御用トークン) | |
| Apple | Applebot | Siri・Spotlightの検索 | 遵守 |
| Apple | Applebot-Extended | Appleの基盤モデル学習の制御 | 遵守(制御用トークン) |
| Common Crawl | CCBot | オープンデータセット構築(多数のLLM学習に二次利用) | 遵守 |
| Meta | meta-externalagent | MetaのAI学習等 | 遵守 |
| Amazon | Amazonbot | Alexa等の回答生成 | 遵守 |
このほかByteDanceのBytespiderも広く観測されていますが、公式の管理ドキュメントが公開されておらず、挙動を制御しにくいクローラーです。アクセスを止めたい場合はrobots.txtではなくWAF側での制御が現実的です。
実際のUA文字列(ログ確認用)
アクセスログから「どのAIが来ているか」を調べるときは、UAトークンを含む完全な文字列で確認します。公式公開されている代表例は次のとおりです(OpenAI Bot文書・Perplexity開発者ドキュメント、2026年時点)。
# OpenAI GPTBot(学習用)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot
# OpenAI OAI-SearchBot(ChatGPT検索用)
Mozilla/5.0 (...) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot
# OpenAI ChatGPT-User(ユーザー操作用)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
# Perplexity PerplexityBot(検索用)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Anthropicの3クローラー(ClaudeBot / Claude-SearchBot / Claude-User)は、公式ヘルプでUAトークン名のみが公開されています。ログ確認時はトークン名の部分一致で抽出すれば判別できます。
GPTBot・ClaudeBotは許可すべきか
結論から言うと、リード獲得や来店を目的とする一般的な企業サイトは「全許可」が合理的です。理由は2つあります。
理由1: AI検索が新しい流入経路になっているから。 ChatGPT検索やPerplexityの回答に引用されるには、検索用クローラー(OAI-SearchBot・PerplexityBot等)のアクセスが前提です。ブロックすれば、その瞬間からAI検索という流入経路を自ら閉じることになります。
理由2: 学習されることが「指名されるAI時代の認知」につながるから。 AIが自社サービスを知識として持っていれば、「〇〇業界でおすすめの会社は」という質問への回答候補になり得ます。学習用クローラー(GPTBot・ClaudeBot)の拒否は、この機会の放棄を意味します。
ただし「クロール量と見返り」の非対称は理解しておく
Cloudflareの2025年8月調査では、クロール数と参照流入(AIの回答経由でサイトに送られるクリック)の比率に大きな差があることが示されました。
| AI企業 | クロール対参照比率(全カテゴリ既定値) | ニュース・出版カテゴリ |
|---|---|---|
| Anthropic | 約50,000 : 1 | 約2,500 : 1 |
| OpenAI | 約887 : 1 | 約152 : 1 |
| Perplexity | 約118 : 1 | 約32.7 : 1 |
(出典: Cloudflare「AI crawler traffic by purpose and industry」2025年8月28日公開、同年8月第1週の観測値)
Anthropicは5万ページをクロールして1クリックしか返さない計算で、「クロールさせ損では」という議論があるのは事実です。それでも当社が中小企業のAIO対策を支援してきた経験では、AI経由の流入は件数こそ少ないものの「社名やサービス名を理解した上で訪問する、検討段階の深い見込み客」が中心で、問い合わせへの転換率が通常の検索流入より高い傾向があります。流入の量ではなく質で評価すべきチャネルです。
判断マトリクス:サイトタイプ別の推奨設定
| サイトタイプ | 学習用(GPTBot/ClaudeBot等) | 検索用(OAI-SearchBot等) | ユーザー操作用 |
|---|---|---|---|
| コーポレートサイト・店舗サイト | 許可 | 許可 | 許可 |
| BtoBサービスサイト(リード獲得型) | 許可 | 許可 | 許可 |
| 無料メディア(広告収益型) | 方針次第 | 許可 | 許可 |
| 有料会員制メディア・教材販売 | 拒否 | 方針次第 | 方針次第 |
| 独自データベース・調査レポート販売 | 拒否 | 拒否も選択肢 | 方針次第 |
ポイントは「学習用と検索用を別々に判断できる」ことです。たとえばGPTBotを拒否してもOAI-SearchBotを許可していれば、ChatGPT検索には引き続き表示され得ます。同様に、Googleのクローラー公式ドキュメント(2026年時点)には「Google-ExtendedはGoogle検索への掲載に影響せず、ランキングシグナルとしても使われない」と明記されており、Gemini学習だけを拒否してもSEOへの悪影響はありません。
ROI試算例:許可した場合に何が得られるか
仮にAIO対策によってAI検索経由の流入が月30セッション生まれ、AI経由訪問の問い合わせ転換率を3%と仮定すると、月0.9件(年約11件)の問い合わせ増になります(※数値はあくまで試算用の仮定です)。受注単価が30万円・受注率30%の事業なら年間約99万円の売上貢献となり、robots.txtの設定作業(30分程度・費用ゼロ)に対するリターンとしては十分です。逆に言えば、AIクローラーを理由なくブロックしている状態は、この機会をゼロにしているのと同じです。
当サイトのrobots.txt実例(コピペ可)
当サイト0120.co.jpで実際に運用しているrobots.txtの全文です。集客目的のコーポレートサイトなので、AIクローラーは学習用・検索用とも全許可にしています。
User-agent: *
Allow: /
Disallow: /privacy/
Disallow: /terms-shobai/
Disallow: /legal/
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
Sitemap: https://0120.co.jp/sitemap.xml
設計意図は3つです。
- 全体は許可しつつ、法務系ページだけ汎用ルールで除外。 プライバシーポリシーや特商法ページはAIに引用されても集客価値がないため、
User-agent: *側でDisallowしています。 - 主要AIクローラーを明示的にAllow。 「User-agent: *」だけでも技術的には許可になりますが、明示することで方針が一目で分かり、将来一部だけ拒否に切り替える際も行の書き換えだけで済みます。
- Sitemap行でクロール効率を支援。 AIクローラーもサイトマップを参照するため、明示しておくと新規記事の発見が早まります。
学習だけ拒否したい場合の書き換え例
有料コンテンツを持つサイトが「AI検索には出たいが学習はさせたくない」場合は、学習用クローラーだけをDisallowに変えます。
# 学習用クローラーのみ拒否
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# 検索用クローラーは許可(AI検索への表示は維持)
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
クロール頻度だけを抑えたい場合、Anthropicは公式ヘルプ(2026年時点)で非標準拡張のCrawl-delayへの対応を明記しています。
User-agent: ClaudeBot
Crawl-delay: 1
設定手順チェックリスト(7ステップ・所要30分)
- 1. 現状確認:
https://自社ドメイン/robots.txtをブラウザで開き、現在の記述を控える(ファイルがなければ「全許可」状態) - 2. 方針決定: 上の判断マトリクスで自社サイトのタイプを特定し、学習用・検索用・ユーザー操作用それぞれの許可/拒否を決める
- 3. 記述作成: 本記事の実例をベースに、UAトークンの綴りを公式表記どおりに記述する(GPTbotなど大文字小文字の誤記はトークン不一致の原因)
- 4. 設置: ドキュメントルート直下(
/robots.txt)にアップロード。Next.js等の静的サイトはpublic/robots.txtに配置 - 5. 動作確認:
curl https://自社ドメイン/robots.txtで内容が返ることと、文字化け・HTMLエラーページになっていないことを確認 - 6. ログ監視: 設置1〜2週間後にアクセスログを「GPTBot」「ClaudeBot」「PerplexityBot」で検索し、意図どおりのアクセス状況かを確認
- 7. 四半期レビュー: AIクローラーは新顔が増え続けるため、各社公式Bot文書を3ヶ月ごとに見直し、UAトークンの追加・変更を反映する
注意:robots.txtは「お願い」であって「壁」ではない
robots.txtに法的・技術的な強制力はありません。Perplexityの公式ドキュメント(2026年時点)は、ユーザー操作起点のPerplexity-Userについて「ユーザーがリクエストした取得であるため、原則robots.txtを無視する」と明記しています。OpenAIのChatGPT-Userも同様にユーザー起点の取得はrobots.txtの対象外となる場合があります。アクセス自体を技術的に遮断したい場合は、CloudflareのAIボットブロック機能やWAFのUAフィルタを併用してください。逆に集客目的のサイトでは、こうした遮断機能が意図せずONになっていないかの確認も重要です。
まとめ:今日やるべき3つのアクション
- 自社のrobots.txtを今すぐ確認する(5分)—
https://自社ドメイン/robots.txtを開き、GPTBot・ClaudeBot・PerplexityBotの扱いを把握する。記述がなければ現状は全許可です。 - 判断マトリクスで方針を決め、設定を反映する(30分)— 集客目的なら本記事の当サイト実例をそのまま流用できます。有料コンテンツがあるなら「学習だけ拒否」の例を使ってください。
- AIクローラーが来た後の「引用される側の対策」に着手する — クローラーを許可するのは入口にすぎません。引用されるには定義文・出典明記・構造化データなどのコンテンツ側の整備が必要です。まずは無料のAIO対策チェックリストで現状を診断してください。
robots.txtの設計からAI検索での引用獲得まで一貫して任せたい方は、当社のAIO対策サービスをご覧ください。現状診断は100,000円(一括・税抜)、継続施策はスタンダードプラン月150,000円(税抜)から提供しています。
