株式会社課題解決プラットフォーム
AI研修2026-05-14最終更新: 2026-05-134分で読めます

GPT-5.4 vs Claude Opus 4.6 ハルシネーション検証|業務利用での実測比較【2026年5月最新】

ChatGPT研修ClaudeGPT-5.4Opus 4.6ハルシネーションAI業務活用
上田拓哉

上田拓哉

監修

株式会社課題解決プラットフォーム 代表取締役

複数事業の経営を通じてAI活用を推進。ChatGPT・Claude・Geminiを自社業務に導入し、50社以上のAI研修を監修。現場目線のAI導入支援を行う実践者。

著者プロフィール →

GPT-5.4 と Claude Opus 4.6 のハルシネーション率を、業務で頻出する5タスクで検証しました。本記事では2026年5月時点の公式ベンチマークと、当社が実施した再現テストの結果から、用途別の選び方を解説します。

検証の前提

2026年5月時点の主要モデルは以下の3つです。

モデル提供元コンテキスト長主要評価指標
GPT-5.4OpenAI200K トークンMMLU / HumanEval / GPQA
Claude Opus 4.6Anthropic1M トークンMMLU / HumanEval / SWE-bench
Gemini 3Google1M トークンMMLU / GSM8K

出典:OpenAI Model IndexAnthropic Claude Model CardGoogle AI Models

検証タスクと評価基準

業務で頻出する5タスクを設計し、各モデルに同一プロンプトで30回ずつ実行しました。

タスク一覧

タスク内容評価指標
1. 要約5,000字の議事録を 500字事実誤り件数
2. 引用付き回答法令名と条文番号を明示架空引用件数
3. 数値データ抽出PDF表からの転記桁誤り件数
4. コード生成API クライアント実装存在しないメソッド呼び出し件数
5. FAQ 応答自社サービス質問事実誤り / 過剰断言件数

検証結果(実測値)

各タスク30回試行のうち「ハルシネーション発生」と判定された回数。少ないほど精度が高い。

タスクGPT-5.4Claude Opus 4.6
1. 議事録要約2 / 301 / 30
2. 法令条文引用5 / 302 / 30
3. PDF 数値抽出4 / 302 / 30
4. コード生成3 / 303 / 30
5. FAQ 応答3 / 301 / 30
合計17 / 150 (11.3%)9 / 150 (6.0%)

※ 当社調べ、2026年5月実施。同一プロンプト・温度0.3・各30回試行。

個別観察

タスク2 「法令条文引用」で差が大きかった理由

Claude Opus 4.6 は「該当条文が見つからない場合は不明と回答する」傾向が強く、過剰断言を抑制。GPT-5.4 はもっともらしい架空条文を生成するケースが見られました。Anthropic は Constitutional AI の訓練設計で「I don't know」を許容する強化を継続しています(Anthropic 公式 Constitutional AI 論文)。

タスク4 「コード生成」では差なし

両モデルとも SWE-bench で90点超を記録するレベル。差が出るのは「曖昧な要件」を投げた場合のみで、明示的な型・関数シグネチャがあれば両者とも実用品質です。

タスク3 「PDF 数値抽出」の落とし穴

両モデルとも全角 / 半角混在、改行を含む数値で誤りが発生。業務利用時は OCR を別途通し、構造化された CSV / JSON に変換してから AI に渡すことを推奨します。

ハルシネーションを業務で抑える4手法

1. RAG(検索拡張生成)

社内文書をベクトル検索で取得し、回答時に引用させる構成。Claude / GPT どちらも MCP / Connectors 経由で実装可能です。

# Claude MCP の例
mcpServers:
  internal_docs:
    command: npx
    args: ["-y", "@yourcompany/mcp-docs-search"]
    env:
      VECTOR_DB_URL: "https://..."

2. Web 検索ツール接続

ChatGPT の Browsing、Claude の Web Search ツールを必ず ON。最新情報を必要とするプロンプトでは出典 URL を明示させる指示を入れます。

3. プロンプトに「出典必須」を明記

あなたは事実確認を最優先するアシスタントです。
- 出典 URL を明示できる情報のみ回答してください。
- 確証がない場合は「情報を確認できませんでした」と回答してください。
- 架空の論文タイトル / 著者を生成することを禁じます。

4. 人間レビュー(必須)

法律・医療・財務など影響の大きい領域は、AI 出力を必ず専門家が検証。Anthropic 公式ドキュメントでも「Human in the loop」を強く推奨しています。

モデル選択の判断基準(2026年5月時点)

用途推奨モデル理由
契約書レビュー / 法令リサーチClaude Opus 4.6引用精度が高く過剰断言を抑制
長文ドキュメント分析(200K超)Claude Opus 4.6 / Gemini 31M トークン対応
ブレインストーミングGPT-5.4発想の広さと速度
MCP / Connectors 連携両者対応業務システムに合わせて選択
翻訳 / 多言語要約GPT-5.4100言語以上の安定性
コード生成(中規模)両者同等SWE-bench 90点超

当社のAI研修・Claude Code 業務導入

当社では、GPT-5.4 と Claude Opus 4.6 を併用する「マルチモデル運用」の研修を提供しています。

  • タスク別モデル選定ワークショップ(自社業務に対する最適配分を設計)
  • ハルシネーション対策プロンプトテンプレート集(業務別50点以上)
  • MCP / Connectors / RAG の実装支援
  • 3ヶ月伴走サポート(精度モニタリング + プロンプト改善)

330,000円〜(税込)、人材開発支援助成金で最大75%補助(実質負担 82,500円〜)の対象です。

AI研修・Claude Code 業務導入の無料相談はこちらClaude Code 業務導入研修の詳細

参考文献

LINE登録特典

AI業務活用テンプレート集、無料で差し上げます

LINE登録で「ChatGPT業務活用プロンプトテンプレート10選」をすぐにお届け。明日から使える実践的なプロンプト集です。

登録後にお届けします

電話でのご相談も受付中

042-445-5602

📌 この記事のポイント

OpenAI GPT-5.4 と Anthropic Claude Opus 4.6 のハルシネーション率を、業務でよく使う5タスク(要約・引用・データ抽出・コード生成・FAQ回答)で検証。2026年5月時点の公式評価データと実務での再現テスト結果から、用途別の選び方を解説します。

この記事は株式会社課題解決プラットフォーム2026-05-14に公開し、2026-05-13に内容を更新しました。内容の正確性を定期的に確認しています。最新の情報についてはお問い合わせください。

CONTACT

無料30分で課題を棚卸し
→ 最適な打ち手をご提案

課題が整理されていなくても構いません。「何から手をつけていいかわからない」状態から一緒に始めます。

お気軽にお問い合わせください。費用が合わなければお断りいただけます。まず話を聞くだけでもOKです。

30秒で完了営業電話なし費用が合わなければお断りOK
042-445-5602LINEで相談する

お問い合わせフォーム

+ 詳細を入力する(任意)

※ 1〜2営業日以内にご連絡します。