本日の朝礼
今日の朝礼は、社内の検証を通して明らかになった「GPTクローラー(GPTBot)」の挙動について共有します。
ChatGPTはJavaScriptで生成されるコンテンツを読まない
引用元:BlueTick Consultants|Web Crawler Explained: GPTBot vs Googlebot
この記事によると、ChatGPTのクローラー(GPTBot)はJavaScriptで生成されたコンテンツを基本的に読み取らないことが確認されています。
つまり、ReactやVue、あるいはSTUDIOなどのノーコードツールで生成されたページの一部は、AIに情報として認識されない可能性があるということです。
Googleのbotはある程度JSを読み取れる
一方で、Googleの検索クローラーはJSのレンダリング機能を持っており、一定レベルまでは読み込むことができます。
この違いが、「Google検索ではインデックスされているのに、ChatGPTには情報が出てこない」現象の一因です。
STUDIOの「記事一覧ページ」は要注意
STUDIOで制作したWebサイトでは、記事一覧ページなどの一部がJavaScriptで生成されています。
実際に弊社で検証したところ、GPTクローラーはその部分を読み取れていませんでした。
そのため、「STUDIOで作ったのにChatGPT検索で記事が拾われない」というケースは、この構造が原因の可能性があります。

▲GPTの回答
念のため「JSは読めない?」と質問してみました

▲素直ではあるようです(笑)
GPTクローラーは3種類存在する
OpenAIのGPT関連クローラーには、主に以下の3種類があります。
GPTBot:ChatGPTの学習用・情報取得用クローラー
OAI-SearchBot:検索結果(ChatGPT Searchなど)用クローラー
ChatGPT-User:実際のユーザーリクエスト時に動作するクローラー
このうち、事前に情報を貯める1.GPTBotと、最新情報を取得する2.OAI-SearchBotはsitemap.xmlを読み取ってクロールしています。
sitemap.xmlがあれば、基本的には問題なし
弊社で実際にテストした結果、sitemap.xmlを正しく設置していればGPTクローラーはコンテンツを読み取ることが確認できました。

▲記事一覧ページを指定するのではなく、ドメインで指定すると、既にGPT内にあるsitemap.xmlの内容を読んでいるようです
そのため、STUDIOなどJSベースのCMSを利用していても、
sitemap.xmlを整備しておけば、AIに情報が届く確率は大きく向上します。
最も危険なのは「JS生成+sitemap.xmlなし」の構成
最もリスクが高いのは以下の条件が揃っている場合です。
JavaScriptで生成されるページ構造(STUDIO、React、Vueなど)
sitemap.xmlが未設置または不正確
この場合、ChatGPTのクローラーに一切情報が届かない可能性があります。
Webサイトの情報をAIにも認識させたい場合、早急にサイトマップの設置・更新を行うことが重要です。
まとめ
ChatGPT(GPTBot)はJavaScriptを読めない
Googlebotはある程度JSを読み取れる
STUDIOの記事一覧はJS生成なので注意
sitemap.xmlを設置すればGPTクローラーは認識可能
「JS生成+サイトマップなし」は最も危険
たまにGPTが「このページは読めません」って言っていた理由が、
気まぐれではなくちゃんとした理由があったようですね笑
記事を書いた人
Webデザイナーから業界に入り、現在はWebプロデューサーとしてクライアント様の事業成長をデジタルでご支援。
打ち合わせやヒアリングの際に、お客さまの悩み事を聞くとどうしても感情移入してしまい、長引きがち。
企業のブランディング、サイト解析、コンテンツ作成が得意領域。
自社の売上や利益を目的としたマネーゲームではなく、
「ビジネス=人に役立つこと」と言える世の中にしたい。
趣味はキックボクシング(する方)、バスケ(見る方)、音楽。











