クロールバジェットとは?対象サイトやGoogleの見解、最適化の方法を解説
Webサイトは無限にあるのに対して、Googleが行うクロールには能力の限界があります。そのためWebサイトのすべてのページをクロールしてもらえないこともあります。
これが俗に言う「クロールバジェット」です。「クロールバジェット」に対して過剰に反応する人たちもいますが、公式でも発表があるようにほとんどではこれの影響を受けることはありません。
今回は、分かりそうで分からないクロールバジェットの正体に迫っていきます。後半では最適化の方法にも触れているので、クロールバジェットの影響が気になる人は試してみてください。
- SEOに悩むサイト担当者必見!世界最高水準のテクニカルSEOツール「Lumar」
-
URLを入れるだけでサイト内部の問題を一括検出。
Googleと同じ視点でサイトクロール、
大規模サイトでも手軽に高度なSEO分析ができます!まずは無料デモクロールを試して、あなたのサイトの問題点を一括検出!
クロールバジェットとは
クロールバジェット(Crawl Budget)とは、1つのサイトに対してクロールできる上限数(割り当て枠)のことを言います。
インターネットが普及してから、日々多くのWebサイトやWebページが生まれています。それに対してGooglebotがWebサイト内のページをクロールする能力には限りがあることから、「クロールの割り当て枠」があるといった考え方が生まれました。この考え方がクロールバジェットの正体です。
ちなみにGoogle社内ではこうした言葉は使用されていませんが、外部で使用されていることから2017年の公式サイトではクロールバジェットについて以下のように定義づけています。
クロールの割り当ては、Googlebot によるクロールが可能であり、かつクロールが必要な URL の数であると定義できます。
引用元:Google検索セントラル
クロールは、サイトにアクセスするユーザーの利便性を優先するため、ページ表示速度が遅いサイトへのクロールの回数を減らします。反対に表示スピードが速いサイトへのクロール頻度は増える、という仕組みがあります。さらに、Google側でクロールの必要性があると認めた場合にその頻度が上がります。
クロールの必要性を構成するのは「人気度」と「古さ(古いURLがインデックス内で無効にならないように)」であると言われています。
また、大規模サイトやURLパラメータを利用してURLを自動生成しているようなサイトでない限り、サイト運営者がクロールバジェットを気にする必要はないことにも言及しています。つまり大半のサイトが影響を受けないということです。ちなみにクロールバジェットがSEOのランク付けに関係することはありません。
クローラーとは
クローラーとは、インターネット上に存在するサイトを巡回し、「検索順位を決める要素を収集する」ロボットプログラムのことです。Webサイトを這い回る(crawl)に由来しています。
クローラーはすでにデータベース化されている膨大なリンクを辿り、WebサイトからWebサイトを渡り歩き、各ページの解析を行います。その解析結果をもってして、検索結果として最適な順位付けを行います。
そのため、クローラーがサイトに訪れたことがないWebサイトは、検索エンジン上に表示されることはありません。つまり、この状態でいくらSEO対策を行ったとしても、何の意味もないことになります。
Googlebotとは
Googlebotとは、Googleのクローラーの総称です。短縮して「クローラー」、もしくは這い回るという特徴から「スパイダー」、またはロボットプログラムであることから「ロボット」と呼ばれることもあります。Googlebotには下記の2種類が存在します。
- デスクトップクローラー
- モバイルクローラー
通常Webサイトは、上記の2つによりクロールされます。
従来はデスクトップ版のWebページにおいて、クロールやインデックス、ランク付けが行われていましたが、モバイル機器の流行により、Googleは2018年にモバイルファーストインデックスを開始。サイト内をモバイル機器に最適化するよう設計している場合のクロールリクエストにおいては、ほとんどがモバイルクローラーで行われ、一部はデスクトップクローラーで行われるようになっています。
クロールバジェットの目的
先述したとおり、クロームはサイトに訪れるユーザーの利便性を優先します。それにより「サイト速度が速い」、「人気で新しい」サイトへのクロームが、「サイト速度が遅い」、「人気度が低く古い」サイトよりも多くなる仕組みになっています。
クロームバジェットは、この「サイトの速度が遅い」「人気度の低い」サイトにおいて、「クロームの上限が設定されているのでは?」と言われているだけであって、Google社が正式にこうした機能があると言及しているものではありません。
そのため、この現象にこれといった目的は存在しないというのが正しい認識でしょう。強いていうのであれば、はじめにいった「ユーザーの利便性を優先すること」を目的として据えることはできるかもしれません。
クロールバジェットの影響を受けるサイト
下記のようなサイトは、「重複ページがあることでクロールが困難になる」というクローラーの特性により、結果的にクロールバジェットと呼ばれる現象の影響を受けるとされています。
- 大規模なサイト(100万ページ以上)で、コンテンツの更新頻度が中程度(1週間に1回)の場合
- 中規模以上のサイト(10,000ページ以上)で、(日常的に)コンテンツがめまぐるしく変更される場合
上記のようなサイトではコンテンツが重複しやすく、クローラーが巡回しやすい環境が整っていません。つまり、クロールバジェットの影響を受けるサイトというのは、クローラビリティ(クローラーの巡回しやすさ)を意識していないサイト、もしくは数が膨大になりすぎて意識できないサイトであると言えます。
クロールバジェットに対するGoogleの見解
Googleは付加価値の低いURLが多数あるとサイトのクロールやインデックス登録において、悪影響を及ぼす可能性があると発表しています。付加価値の低いURLの例として挙げられているのが以下のようなものです。
【付加価値の低いURL一例】
- サイト内の重複コンテンツ
- ソフトエラーページ
- 質の低いコンテンツ
- ハッキングされたページ
上記のようなURLがサーバーのリソースを浪費していると、価値の高いページへのクローラーの巡回を妨害することになります。クローラーが、サイト内の価値あるコンテンツを見逃す要因となるので注意しておきましょう。
クロールバジェットを最適化する方法
クロールバジェットの影響を受けないためには、以下のような点を意識しておくと良いでしょう。
- robots.txtで最適化する
- 401、410エラーを修正する
- 低品質なコンテンツの修正・削除
- リダイレクトチェーンを対処する
- XMLサイトマップを更新する
何度もいうように、クロールバジェットは多くのWebサイトで気にする必要はありません。むしろ、上記は通常行っておきたいWeb施策でもあるため、健全な運営を行っている限りは、クロールバジェットを意識することも不要と言えます。
robots.txtで最適化する
robots.txtとは、クローラーに特定のページをクロールさせないように設定できるファイルのことです。クローラーは特に指示がなければ、すべてのページをクロールしようとします。このすべてのページのなかには先に紹介した低品質なページや、クロールさせる必要のないページも含まれており、これらのページをクロールしてもらうのは無駄にしかなりません。
「低品質なページ」と「クロールの必要性がないページ」はrobots.txtで除外すれば、その分、価値のあるページをクロールしてもらいやすくなります。
404、410エラーを修正する
ステータスコード404、410はそれぞれ「ページが存在しない」ことを意味します。これらが設定されている場合、対象のURLをクローラーがクロールしないようになっているため、クロールバジェットを消費する心配はありません。しかし、ユーザービリティにおいては評価が低くなる、つまり質の低いページとして認識されてしまう可能性があるので注意が必要です。
また、ソフト404(ページが存在しないはずなのに存在しているとサーバーが返してくるエラー)においてはクロールの対象となるため、ページが存在しない場合は削除しておきましょう。
低品質なコンテンツの修正・削除
クロールは「人気度」と「古さ」において、クロールの必要性を判断するとされています。人気度の高いページとはつまり、質の高いコンテンツを掲載しているページとも言えます。そのため、低品質なコンテンツは人気がないページとみなされ、クロールの必要性が低いページと判断されるでしょう。
低品質なコンテンツの例としては、下記のようなものが挙げられます。
- リンク切れ
- スパムコンテンツ
- 重複ページ
また、これらは404、410ページと同じくユーザービリティも低くなるため、できるだけ発生しないように注意しておきましょう。
リダイレクトチェーンを対処する
少し古いですが2011年に公開された映像のなかで、Google社のMatt Cutts(マットカッツ)氏は「リダイレクト(旧ページから新ページへ移行させる)が4~5回程度続くとクロールの処理がストップするかもしれない」と語っています。つまり、リダイレクトチェーンを複数設置している場合、インデックスしてほしいページにクローラーが行き着く前に、クロールを止めてしまう可能性があるのです。
そのため、リダイレクトチェーンを複数設置している場合は注意が必要です。リダイレクトチェーンの設定は多くても1~2つ程度に抑えられるようにしておくのが良いでしょう。
XMLサイトマップを更新する
XMLサイトマップを更新することで、追加したコンテンツや更新したページを効率良くクロールしてもらえます。更新時にはURLエントリに更新日を知らせる「lastmod」(last modifiedの略)を追加しておくのがおすすめです。lastmodを記載しておくことで、更新したページを優先的にクロールしてくれるようになります。
まとめ
クロールバジェットは100万ページ以上を有する大規模サイトか、1万ページ以上を持ち、かつ頻繁に更新を行う中規模サイトでない限りは気にする必要はない現象です。そのため不必要に気にすることもありません。
ただし、今回紹介したクロールバジェット最適化対策は、ユーザー体験を高めるためにも実施しておきたい対策なので、日頃から取り組んでおきましょう。
- SEO対策でビジネスを加速させる「SEO Dash! byGMO」
-
SEO対策でこんな思い込みしていませんか?
- 大きいキーワードボリュームが取れないと売上が上がらない・・
- コンサルに頼んでもなかなか改善しない
- SEOはコンテンツさえ良ければ上がる
大事なのは自社にあったビジネス設計です。
御社の課題解決に直結するSEO施策をご提案します