音声検索対策の本命は、SpeakableスキーマではなくAIO対策(AI検索最適化)です。株式会社PLAN-Bの2025年3月調査で日本の音声検索利用率は32%、Backlinkoの2018年調査では音声回答の40.7%が強調スニペット由来でした。さらにAppleはWWDC 2026(2026年6月8日)でGemini搭載の刷新Siriを発表し、音声アシスタントの回答源はGoogle検索系インデックスへ収斂しつつあります。
この記事では、2026年6月時点の一次情報をもとに、音声検索対策の「やるべきこと」と「やらなくていいこと」を切り分けます。Speakableスキーマの実装方法も解説しますが、先に結論を言えば、日本語サイトが今日投資すべきは別の場所にあります。
音声検索対策とは
音声検索対策とは、SiriやGemini、スマートスピーカーなどの音声アシスタントが読み上げる回答に、自社のコンテンツや店舗情報を採用させるための最適化施策です。具体的には、会話型クエリに対応したコンテンツ設計、強調スニペットの獲得、構造化データの実装、Googleビジネスプロフィールの整備などが含まれます。
テキスト検索と違い、音声検索の回答は「1位の1件だけ」が読み上げられるケースが大半です。10位以内に入れば一定の流入が見込めるテキストSEOとは異なり、音声検索は実質的に1位総取りの世界です。だからこそ、闇雲に取り組むのではなく、データに基づいて費用対効果の高い施策に絞る判断が重要になります。
「検索の50%が音声になる」予測はなぜ外れたか
音声検索には過剰な期待の歴史があります。米Baiduの首席科学者だったAndrew Ng氏は2016年、Fast Company誌のインタビューで「2020年までに検索の50%は音声または画像経由になる」と予測しました。この数字は世界中のマーケティング記事で引用されましたが、実現しませんでした。
実際の日本の利用実態は、株式会社PLAN-Bの2025年3月調査(有効回答150名)で次の通りです。
| 項目 | 数値 |
|---|---|
| 音声検索の利用率 | 32% |
| 利用デバイス:スマートフォン | 95.3% |
| 利用デバイス:PC | 27.0% |
| 利用デバイス:スマートスピーカー | 18.0% |
| 利用頻度の最多回答 | 月に数回(36.4%) |
| この1〜2年で利用頻度が「増えた」 | 50.7% |
| ハンズフリー場面での利用 | 52.7% |
出典: 株式会社PLAN-B「音声検索の利用状況に関する調査」2025年3月
読み取るべきポイントは2つです。第一に、音声検索は「検索の主役」にはなっていないものの、3人に1人が使う定着済みのチャネルであること。第二に、利用の中心はスマートスピーカーではなくスマートフォンであり、運転中・料理中などハンズフリー場面と、地域の店舗探しに偏っていることです。BrightLocalの2018年調査「Voice Search for Local Business Study」でも、消費者の58%が音声検索で地域のビジネス情報を探した経験があると回答しています。
つまり音声検索対策は「全社的な一大プロジェクト」ではなく、ローカルビジネスと質問型コンテンツに絞った重点投資として設計するのが、データに裏付けられた現実的な姿勢です。
2026年、音声アシスタントは「AI検索の音声入口」になった
2026年は音声アシスタントの構造が根本から変わった年です。時系列で整理します。
| 時期 | 出来事 | 出典 |
|---|---|---|
| 2025年3月 | GoogleがスマートフォンのGoogleアシスタントをGeminiへ順次置き換えると発表 | Google公式ブログ(2025年3月) |
| 2025年11月 | AppleがGoogleに年間約10億ドルを支払い、1.2兆パラメータのGeminiカスタムモデルをSiri基盤に採用と報道 | Bloomberg(2025年11月) |
| 2026年3月 | iOS 26.4でSiri刷新の第一弾(パーソナルコンテキスト・画面認識・アプリ横断操作)提供開始 | Bloomberg / 各社報道(2026年2〜3月) |
| 2026年4月 | Google CloudのThomas Kurian CEOが「Gemini搭載Siriは2026年後半に登場」と明言 | Google Cloud発表(2026年4月) |
| 2026年6月8日 | WWDC 2026でGemini搭載の刷新Siriを正式発表。「Search or Ask」インターフェースを公開、開発者ベータ同日開始 | Apple WWDC 2026基調講演 |
| 2026年7月(予定) | パブリックベータ提供 | Apple発表(2026年6月) |
| 2026年9月(予定) | 正式リリース | Apple発表(2026年6月) |
この流れが意味するのは、音声アシスタントの「頭脳」と「回答ソース」が、Google検索系のインデックスと生成AIに収斂したということです。
主要音声アシスタントの回答ソース(2026年6月時点)
| アシスタント | 基盤 | 主な回答ソース | 対策の入口 |
|---|---|---|---|
| Siri(刷新版) | Googleのカスタム版Geminiモデル(Private Cloud Compute上で稼働) | Web検索ベースの「Search or Ask」 | Google検索・AI Overview向けのAIO対策 |
| Gemini(旧Googleアシスタント) | Gemini | Google検索グラウンディング(AI Overviewと同系) | AI Overview向けのAIO対策 |
| ChatGPT音声モード | GPT系モデル | ChatGPT search(独自クローラー+提携データ) | ChatGPT向けのAIO対策 |
かつての音声検索対策は「Googleアシスタント向け」「Siri向け」と分かれていましたが、2026年の現実は違います。Siri・Geminiの両方がGoogle系の検索基盤に依存する以上、音声検索対策はAI検索対策(AIO)とほぼ同一の施策に統合されたのです。SiriとGeminiの両方に載りたければ、やるべきことはAI Overview・Geminiに引用されるコンテンツ作りです。
音声アシスタントはどこから回答を取ってくるか
音声回答の選定ロジックを示すデータとして、今も参照価値が高いのがBacklinkoの2018年「Voice Search SEO Study」です。Google Homeの音声回答1万件を分析した結果、読み上げられたページには明確な共通点がありました。
| 音声回答に採用されたページの特徴 | 数値 |
|---|---|
| 強調スニペット由来の回答 | 40.7% |
| 採用ページの平均文字量 | 2,312語(英語) |
| 回答文の読みやすさ | 米国9年生(中3相当)レベル |
| HTTPS対応率 | 70.4% |
| 平均ページ表示速度 | 4.6秒(平均的ページより52%高速) |
出典: Backlinko「Voice Search SEO Study」2018年
ここから導ける音声検索対策の核心は次の3点です。
- 強調スニペットの獲得が最重要。音声回答の4割超がスニペットの読み上げであり、スニペット最適化はそのまま音声対策になる
- 回答文は平易に、ページ全体は厚く。読み上げられる文は中学生レベルの平易さ、ただしページ自体は網羅的で長い
- 表示速度とHTTPSは前提条件。技術的な土台が弱いページは候補から外れる
そして2026年現在は、ここに「AI検索への引用」が加わります。Gemini搭載Siriの回答生成はAI Overviewと同系の仕組みであるため、AI検索に引用される条件を満たすことが、音声で読まれる条件とほぼ重なります。
Speakableスキーマの実装方法と現実的な期待値
Speakableスキーマとは
Speakableスキーマとは、ページ内の「音声読み上げに適したセクション」を検索エンジンに伝えるschema.orgの構造化データです。マークアップした箇所は、Googleアシスタント搭載デバイスがTTS(テキスト読み上げ)でニュース回答として再生する候補になります。
実装方法
実装はJSON-LDで、speakableプロパティに読み上げ対象のCSSセレクタまたはXPathを指定します。
{
"@context": "https://schema.org",
"@type": "WebPage",
"name": "音声検索対策の要点",
"speakable": {
"@type": "SpeakableSpecification",
"cssSelector": [".article-summary", ".faq-answer"]
},
"url": "https://example.com/voice-search-guide/"
}
Google検索セントラルの公式ドキュメント(2026年6月時点)が示す実装要件は次の通りです。
| 要件 | 内容 |
|---|---|
| 指定方法 | cssSelector または xPath のどちらか一方(併用不可) |
| 1セクションの分量 | 読み上げ約20〜30秒、文章2〜3文が目安 |
| 除外すべき要素 | 日付欄・画像キャプションなど読み上げ時に混乱を招く情報 |
| 設計方針 | 記事全文ではなく要点を抜き出してマークアップ |
| 対象タイプ | ニュース記事・Webページ |
現実的な期待値:日本語サイトには「まだ」効かない
ここが本記事で最も伝えたい点です。Google検索セントラルの公式ドキュメントには、Speakableについて次の制約が明記されています。
- ステータスはベータ版であり、要件・ガイドラインは変更される可能性がある
- 対象は英語に設定された米国ユーザーのみ
- 対象コンテンツは英語で公開されるニュース
- 他国・他言語への拡大は「十分な数のパブリッシャーが実装した段階で」検討
つまり、2026年6月時点で日本語の企業サイトにSpeakableを実装しても、直接の効果は見込めません。「音声検索対策=Speakable実装」と紹介する記事は今も散見されますが、公式ドキュメントを読む限り、日本語サイトにとっては優先度の低い施策です。
実装を検討する価値があるのは、(1) 英語版ニュースを配信しているメディア、(2) 将来の日本語展開を見据えて低コストで仕込んでおきたい大規模ニュースサイト、の2パターンに限られます。実装コスト自体はテンプレート改修1回分と小さいため「保険として入れる」判断はあり得ますが、これを主役に据えた音声検索対策は本末転倒です。
優先すべきは、Googleが日本語でもリッチリザルトや AI 検索の手がかりとして利用している FAQPage・Article・LocalBusiness・Organization などの構造化データです。
日本語サイトの音声検索対策7ステップ
データと2026年の環境変化を踏まえた、実効性の高い順の7ステップです。
ステップ1: 会話型クエリでFAQを設計する
音声検索のクエリはテキストより長く、話し言葉です。
| テキスト検索 | 音声検索 |
|---|---|
| 「エアコン クリーニング 相場」 | 「エアコンのクリーニングっていくらくらいかかるの?」 |
| 「確定申告 期限」 | 「確定申告っていつまでにすればいい?」 |
| 「渋谷 ランチ 個室」 | 「この近くで個室があるランチのお店を教えて」 |
「いくら」「いつまで」「どうやって」「どこで」で始まる質問を洗い出し、FAQとして整備します。
ステップ2: 質問の直後に40〜60字で直接回答する
強調スニペットと音声読み上げの両方で採用されやすいのは、質問見出しの直後に結論を1〜2文で置く構成です。Backlinkoの2018年調査が示した「平易な回答文」を意識し、専門用語を噛み砕いて書きます。
ステップ3: 効果が検証済みの構造化データを実装する
FAQPage・Article・LocalBusiness・Organization・BreadcrumbListを優先します。Speakableはステップ7の後で十分です。
ステップ4: ページ表示速度を改善する
Backlinkoの2018年調査では、音声回答に採用されたページは平均的なページより52%高速でした。Core Web Vitalsの改善はテキストSEO・AIO・音声の三方に効きます。
ステップ5: HTTPSと技術的土台を整える
同調査で音声回答採用ページのHTTPS対応率は70.4%。常時SSL、モバイル対応、クロール可能なHTML構造を徹底します。
ステップ6: Googleビジネスプロフィールを整備する
BrightLocalの2018年調査の通り、音声検索の主要ユースケースは地域の店舗・企業探しです。営業時間・電話番号・カテゴリ・写真・最新投稿を整備し、口コミへの返信を続けることが、音声経由の来店導線になります。
ステップ7: AI検索(AI Overview・Gemini・ChatGPT)への引用対策を行う
2026年の音声アシスタントはAI検索の音声入口です。AI Overviewの表示条件を満たし、ChatGPTやPerplexityに引用される状態を作ることが、結果としてSiri・Geminiの音声回答に載る最短ルートになります。
ROI試算:音声検索「だけ」を狙う投資はしない
音声検索対策の投資判断で重要なのは、音声単独のROIを計算しないことです。音声経由の流入はアクセス解析上「通常の検索流入」や「ノーリファラー」に混ざるため、単独計測がそもそも困難です。代わりに、施策が複数チャネルに同時に効く前提で試算します。
試算例(数値はすべて仮定のモデルケースです):
- 施策: FAQ20問の整備+FAQPage構造化データ実装
- コスト: 制作・実装で30万円相当(社内工数換算)
- 効果範囲: ①強調スニペット獲得 → テキスト検索CTR向上、②AI Overview・Gemini引用 → AI検索経由の認知、③音声回答採用 → ハンズフリー層へのリーチ
- 仮にFAQ経由の月間流入が500セッション増、CVR1%、顧客単価5万円なら、月25万円の売上貢献 → 約1.2ヶ月で回収
ポイントは、③の音声だけを切り出すと回収計算が成り立たない一方、①②③を同時に生む施策として見れば十分に合理的な投資になることです。これが「音声検索対策はAIO対策に統合して行うべき」というこの記事の結論の、費用対効果面からの裏付けです。
当社が100社以上のWeb集客・AIO支援で得た経験則でも、音声検索を単独メニューとして切り出すより、FAQ構造化と直接回答型コンテンツの整備を進めた結果として「スニペット獲得→AI引用→音声読み上げ」が連鎖的についてくるケースがほとんどです。逆に、Speakableスキーマの実装だけを先行させて成果につながった例は確認できていません。
今日からできる音声検索対策チェックリスト
- 自社サービスについて「いくら・いつ・どうやって・どこで」型の質問を10個書き出した
- 各質問に40〜60字の直接回答を用意した
- FAQページにFAQPage構造化データを実装した
- リッチリザルトテストで構造化データのエラーがないことを確認した
- 主要ページの表示速度をPageSpeed Insightsで計測した
- サイト全体が常時SSL(HTTPS)になっている
- Googleビジネスプロフィールの営業時間・電話番号・カテゴリが最新になっている
- 口コミへの返信を直近1ヶ月分行った
- 対象キーワードでAI Overviewに自社が引用されているか実際に検索して確認した
- スマートフォンの音声アシスタントに自社の主要質問を話しかけ、誰の情報が読まれるか確認した
最後の項目はコストゼロで今日できます。SiriとGeminiに「〇〇(自社の業種) おすすめ 地域名」と話しかけてみてください。読み上げられたのが競合の情報なら、それがあなたのサイトの伸びしろです。
まとめ:Speakableは様子見、AIOは今すぐ
2026年の音声検索対策を一言でまとめると「Speakableスキーマは日本語対応まで様子見、AIO対策は今すぐ」です。日本の音声検索利用率32%(PLAN-B 2025年3月調査)という規模感に対して過剰投資を避けつつ、Gemini搭載Siriの登場(2026年9月正式リリース予定)でGoogle系インデックスに収斂した回答ソースに向けて、FAQ整備・構造化データ・直接回答型コンテンツという王道のAIO施策を積み上げることが、音声でもAI検索でも読まれる近道です。
まず現状を知りたい方は、無料のAIOセルフチェックリストで自社サイトのAI検索対応度を確認してください。課題解決プラットフォームでは、AIO診断(100,000円・一括)から、構造化データ実装・パッセージ設計・E-E-A-T強化までを含む継続支援(スタンダード月150,000円/プレミアム月300,000円)まで、AI検索時代の集客基盤づくりをワンストップで支援しています。
