GPT-5.4 と Claude Opus 4.6 のハルシネーション率を、業務で頻出する5タスクで検証しました。本記事では2026年5月時点の公式ベンチマークと、当社が実施した再現テストの結果から、用途別の選び方を解説します。
検証の前提
2026年5月時点の主要モデルは以下の3つです。
| モデル | 提供元 | コンテキスト長 | 主要評価指標 |
|---|---|---|---|
| GPT-5.4 | OpenAI | 200K トークン | MMLU / HumanEval / GPQA |
| Claude Opus 4.6 | Anthropic | 1M トークン | MMLU / HumanEval / SWE-bench |
| Gemini 3 | 1M トークン | MMLU / GSM8K |
出典:OpenAI Model Index、Anthropic Claude Model Card、Google AI Models
検証タスクと評価基準
業務で頻出する5タスクを設計し、各モデルに同一プロンプトで30回ずつ実行しました。
タスク一覧
| タスク | 内容 | 評価指標 |
|---|---|---|
| 1. 要約 | 5,000字の議事録を 500字 | 事実誤り件数 |
| 2. 引用付き回答 | 法令名と条文番号を明示 | 架空引用件数 |
| 3. 数値データ抽出 | PDF表からの転記 | 桁誤り件数 |
| 4. コード生成 | API クライアント実装 | 存在しないメソッド呼び出し件数 |
| 5. FAQ 応答 | 自社サービス質問 | 事実誤り / 過剰断言件数 |
検証結果(実測値)
各タスク30回試行のうち「ハルシネーション発生」と判定された回数。少ないほど精度が高い。
| タスク | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| 1. 議事録要約 | 2 / 30 | 1 / 30 |
| 2. 法令条文引用 | 5 / 30 | 2 / 30 |
| 3. PDF 数値抽出 | 4 / 30 | 2 / 30 |
| 4. コード生成 | 3 / 30 | 3 / 30 |
| 5. FAQ 応答 | 3 / 30 | 1 / 30 |
| 合計 | 17 / 150 (11.3%) | 9 / 150 (6.0%) |
※ 当社調べ、2026年5月実施。同一プロンプト・温度0.3・各30回試行。
個別観察
タスク2 「法令条文引用」で差が大きかった理由
Claude Opus 4.6 は「該当条文が見つからない場合は不明と回答する」傾向が強く、過剰断言を抑制。GPT-5.4 はもっともらしい架空条文を生成するケースが見られました。Anthropic は Constitutional AI の訓練設計で「I don't know」を許容する強化を継続しています(Anthropic 公式 Constitutional AI 論文)。
タスク4 「コード生成」では差なし
両モデルとも SWE-bench で90点超を記録するレベル。差が出るのは「曖昧な要件」を投げた場合のみで、明示的な型・関数シグネチャがあれば両者とも実用品質です。
タスク3 「PDF 数値抽出」の落とし穴
両モデルとも全角 / 半角混在、改行を含む数値で誤りが発生。業務利用時は OCR を別途通し、構造化された CSV / JSON に変換してから AI に渡すことを推奨します。
ハルシネーションを業務で抑える4手法
1. RAG(検索拡張生成)
社内文書をベクトル検索で取得し、回答時に引用させる構成。Claude / GPT どちらも MCP / Connectors 経由で実装可能です。
# Claude MCP の例
mcpServers:
internal_docs:
command: npx
args: ["-y", "@yourcompany/mcp-docs-search"]
env:
VECTOR_DB_URL: "https://..."
2. Web 検索ツール接続
ChatGPT の Browsing、Claude の Web Search ツールを必ず ON。最新情報を必要とするプロンプトでは出典 URL を明示させる指示を入れます。
3. プロンプトに「出典必須」を明記
あなたは事実確認を最優先するアシスタントです。
- 出典 URL を明示できる情報のみ回答してください。
- 確証がない場合は「情報を確認できませんでした」と回答してください。
- 架空の論文タイトル / 著者を生成することを禁じます。
4. 人間レビュー(必須)
法律・医療・財務など影響の大きい領域は、AI 出力を必ず専門家が検証。Anthropic 公式ドキュメントでも「Human in the loop」を強く推奨しています。
モデル選択の判断基準(2026年5月時点)
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 契約書レビュー / 法令リサーチ | Claude Opus 4.6 | 引用精度が高く過剰断言を抑制 |
| 長文ドキュメント分析(200K超) | Claude Opus 4.6 / Gemini 3 | 1M トークン対応 |
| ブレインストーミング | GPT-5.4 | 発想の広さと速度 |
| MCP / Connectors 連携 | 両者対応 | 業務システムに合わせて選択 |
| 翻訳 / 多言語要約 | GPT-5.4 | 100言語以上の安定性 |
| コード生成(中規模) | 両者同等 | SWE-bench 90点超 |
当社のAI研修・Claude Code 業務導入
当社では、GPT-5.4 と Claude Opus 4.6 を併用する「マルチモデル運用」の研修を提供しています。
- タスク別モデル選定ワークショップ(自社業務に対する最適配分を設計)
- ハルシネーション対策プロンプトテンプレート集(業務別50点以上)
- MCP / Connectors / RAG の実装支援
- 3ヶ月伴走サポート(精度モニタリング + プロンプト改善)
330,000円〜(税込)、人材開発支援助成金で最大75%補助(実質負担 82,500円〜)の対象です。
AI研修・Claude Code 業務導入の無料相談はこちら / Claude Code 業務導入研修の詳細
