robots.txtがこんなに重要だったとは。。。身をもって知りました

Advertisement

先日、わけあってロリポップからサクラインターネットにサーバを移行した際に、robots.txtを設置するのを忘れていました。忘れていたというより、設置しなくても問題ないと思っていました。

ところが、サーバを移行して数日後Google Analyticsを見ると、なぜかアクセスが急激に減っています。あわててGoogleウェブマスターツールで確認したら、赤で大きく「エラー」と出ていて robots.txt が読み取れないとのこと。早速、robots.txt をサイトのルートディレクトリにアップしました。robots.txt を設置してからアクセスが回復してきたのと、クロールエラーの割合が減っているのでアクセス激減の理由はやはり robots.txt だったようです。

[追記] その後、数日たってアクセスがもとに戻りました。やはりアクセス激減の原因はrobots.txtでした。

ウェブマスターツールの「Robotsのエラー」には以下のように説明されており、サクラのサーバでこの状況に当てはまっていたようです。

  • robots.txtが存在しない場合デフォルトでアクセスをブロックしていないと認識する
  • 200/404エラーが確認できない場合はクロールしないらしい

Robots のエラー
Googlebot は、サイトをクロールする前にそのサイトの robots.txt ファイルにアクセスして、ページや URL に対する Google のクロールがブロックされているかどうかを調べます。robots.txt ファイルは存在していても到達不可能である場合(つまり、HTTP ステータス コード 200 または 404 が返されるのではない場合)は、許可されない URL を Googlebot がクロールするおそれがあるため、代わりにクロールが延期されます。robots.txt ファイルに正常にアクセスできる状態になると、Googlebot は直ちにサイトのクロールを行います。ロボット除外プロトコルについて詳しくはこちら(リンク先は英語)をご覧ください。

(robots.txt ファイルが必要となるのは、検索エンジンのインデックスに登録したくないコンテンツがサイトに含まれる場合のみです。サイトのすべてのコンテンツを検索エンジンのインデックスに登録したい場合は、robots.txt ファイルは必要ありません。このときに、空のファイルを置く必要はありません。robots.txt ファイルが存在しない場合は、Googlebot がこのファイルをリクエストしたときにサーバーから 404 が返されますが、サイトのクロールは続行されます。)

— 「ウェブマスターツール: Robotsのエラー」より引用

教訓

サーバの移行などウェブサイトに大きな変更があった場合は、以下を注意したい:

  • robots.txtの設置を忘れない!
  • Googleウェブマスターツールに登録して定期的にに確認
  • Google Analyticsでアクセスをモニターする

今回は個人のサイトなのであまり気にしてませんでしたが、検索エンジンからのアクセス流入の増減はウェブサイトに多大な影響を及ぼします。ビジネスの場合は死活問題にもなりかねません。「再確認しておきたい、GoogleへのSEOで忘れがちな16のポイント」なんていう記事もあったので、あわせてチェックしたいですね。

当然なんですが、Googleの存在の大きさと細かいSEO知識の必要性を再認識した出来事でした。

About the author

Rriverのステッカーが貼られたMacBookの向こうにいる自分のMemojiの似顔絵

「明日のウェブ制作に役立つアイディア」をテーマにこのブログを書いています。アメリカの大学を卒業後、ボストン近郊のウェブ制作会社に勤務。帰国後、東京のウェブ制作会社に勤務した後、ウェブ担当者として日英バイリンガルのサイト運営に携わる。詳しくはこちら

ウェブ制作・ディレクション、ビデオを含むコンテンツ制作のお手伝い、執筆・翻訳のご依頼など、お気軽にご相談ください。いずれも日本語と英語で対応可能です。まずは、Mastodon @rriver@vivaldi.net Twitter @rriver 、またはFacebook までご連絡ください。

“robots.txtがこんなに重要だったとは。。。身をもって知りました” への5件のフィードバック

  1. suguru.hirahara より:

    こんにちは。最近アクセス数が激減しておかしいなと思い、このページを見てrobots.txtの設定を確認したら、設定に間違いがありました。。。ありがとうございました^^;

  2. 重城良国 より:

    最近、自分のwebサーバを立ち上げた者です。上から下まで手づくりなのでいろいろと手がかかっています。

    つい先日ですが「どうして僕のサイトはGoogle検索にひっかからないのだろう」と疑問に思いました。はじめのうちはコンテンツに価値がないからかと思っていたのですが、いろいろと調べていくうちに貴サイトのこのページにたどりつきました。
    僕の作ったサーバはページが見つからなくても404エラーを返さないという行儀の悪い仕様だったため、Googlebotがクロールしてくれなかったようです。

    このページのおかげで助かりました。読みやすい記事をありがとうございます。紹介されていた書籍の購入も考えています。
    がんばってください。

    ちなみにGooglebotはSSL3.0とTLS1.0にしか対応していないようですね。僕のサイトのHTTPS版はTLS1.2にしか対応していないので、Googlebotが来ないので、さみしいです。以下に一応HTTPS版のアドレスも載せておきます。GooglebotのTLS対応についての状況についてのページのアドレスも載せておきますので、もしよければのぞいてみてください。

    また、これから書く予定のステータスコードについての記事に、貴サイトのこのページへのリンクを載せさせていただきました。もし不適切であれば削除しますので、その場合は連絡いただければ幸いです。

    https://skami.iocikun.jp
    https://skami.iocikun.jp/computer/web/seo/googlebot.html
    https://skami.iocikun.jp/computer/web/rfc/rfc7231/6_status_code/index.html

    • ryo より:

      コメントありがとうございます。
      少しでもお役に立てたのであれば幸いです。

      リンクもありがとうございます!
      参考にさせていただきます。

  3. […] robots.txtがこんなに重要だったとは。。。身をもって知りました […]