バックアップ HTML が重複コンテンツに!!

バックアップindex1.htmlの問題

弊社が構築したクライアントサイトに広告を貼るということで、ソースを変更することになりました。そこで、広告を担当している企業の方から以下のようなメールをいただきました。

index.html」の他に、バックアップファイルがございます。

index1.html」→元々運用されていたファイル

FTP上にそのままバックアップとしてファイルを置いていると言うのです。

重複コンテンツエラーになる!

一般的に行われている方法なのか?リスティング、広告関係の方だとご存知でなかったのかも知れませんが、検索エンジン的にはindex1.htmlがバックアップファイルかどうか?なんてわからないので、当然読み込まれてしまいます。

弊社が関わっているクライアント様のサイトは自動プログラムでXMLサイトマップが吐き出されるため当然、index1.htmlがあればサイトマップに記述されるでしょうし、対策をしておかなければインデックスされてしまい、エラーになってしまいます。

必ず、対策しておきましょう

index1.htmlのように簡単にバックアップを残しておきたい場合は、以下の方法だけでも行いましょう。

  • meta name="robots" content="index,nofollow"をつける
  • robots.txtDisallow:URL 書き込む
  • .htaccessで制限をつける
  • ZIP化してしまう

注意:現在では検索ロボットもメタの記述にしたがっていますが、数年前でもメタで禁止していてもインデックスされてしまうことがありました

今回のように他の会社、他部署、他の担当が同じファイルを使うことがあるので、ソースの中身を見てわかるようにコメントをするものはもちろん、見ない場合のことを踏まえると、上記の方法で一番わかりやすいのはZIP化かも知れません。

ただ、ファイル名へバックアップファイルだとわかるように「backup」や「bk」の文言をいれて 「index20150723backup.zip」「index0723bk.zip」などとしておくと良いでしょう。また、「index1html.zip」や「index1.zip」できるだけ日付を入れて、バックアップがいつされたのか分かるようにしておきましょう。

バックアップを取るファイルは1つだけではない

もちろん、バックアップファイルは複数になります。 ローカルで保存もいいのですが、やっぱりほしいのはテストサーバーやバックアップサーバーです。 そちらに定期的にバックアップがとれていれば良いです。テストは全く同じサーバーで行うことが多いですが、バックアップサーバーが作れる場合は別会社のサーバーを選ぶと、サーバー会社ごとサーバーがダウンした際の保険になりますので、大規模なサイトほどバックアップを効率よく行っておきたいですね。

ちょっと話がそれてしまいましたが、ちょっとバックアップにはzip化しましょう!

noindex,nofollow,noarchiveの設置

meta要素の書き方は、SEOのホワイトハットジャパンさんで詳しくご紹介されていますので、参考にしてください。