2008年11月22日

ウェブサイトやブログを検索避けしてみる

皆さん通常はYahoo!やGoogleの主要検索サイトのインデックスに、早く反映されることを常に願ってますよね?さてそれとは逆に、検索エンジンに見つけて欲しくないWebページもあるんじゃないでしょうか。そう、こんな時に使われるのが検索避けです。この検索避けにはいくつかの方法がありますので、私の実体験を基に挙げていきましょう。1→2→3と徐々に検索避けの強度が高くなります(あくまで私見)。

1.メタタグによる検索避け
これはrobots.txtをルートディレクトリに置けない場合などにも幅広く利用されます。方法はいたって簡単で、<head> 〜 </head>に下記のタグを記述するだけです。

<meta name="robots" content="noindex,nofollow" />

この内容は「リンク先ウェブページの巡回を拒否し、ウェブページ自身のインデックスへの登録も拒否する」という意味です。ただ、これは比較的ロボットも見落として拾われることが多いですね。私の経験上、気休めにすぎません。

2.robots.txtによる検索避け
有料のサーバなら通常は使えるはずで、トップページ(index.html)を設置する最上位(トップレベル)の階層に置く必要があります。

robots.txtとはテキストファイルで、Windowsならメモ帳で簡単に作ることができます。まずはサイト全体の巡回を拒否する場合です。

▼Yahoo!検索エンジンのクローラーの巡回を拒否

User-agent: Slurp
Disallow: /

▼Google検索エンジンのクローラーの巡回を拒否

User-agent: Googlebot
Disallow: /

▼すべての検索エンジンのクローラーの巡回を拒否

User-agent: *
Disallow: /

次にサイト内の特定のディレクトリだけを拒否する場合を解説します。ここからはすべての検索エンジンのクローラーの巡回を対象に例を挙げてみましょう。

▼private のディレクトリだけクローラーの巡回を拒否

User-agent: *
Disallow: /private/

▼複数のprivate ディレクトリのクローラーの巡回を拒否

User-agent: *
Disallow: /private/
Disallow: /private1/
Disallow: /private2/

※ ディレクトリは複数指定可能なので改行して追加していきます。

ロボットのクローラーは巡回のたびrobots.txtの有無を確認していて、ルートディレクトリにあるrobots.txtに記載された内容に従って巡回します。ただ、巡回後にインデックスを更新して検索結果に反映されるまでには時間がかかるのでご注意下さい。Googleウェブマスターツールでrobots.txtを解析という機能もあり、私の経験上メタタグよりは若干効くかな〜という程度ですね。^^;

3.Basic認証による検索避け
これを使えばロボットのクローラー自体を排除できるので、私の経験では検索避けの最強と感じてます。詳しくは.htaccessでBasic認証にチャレンジで解説されてますのでご覧下さい。

最終的な検索避けお試し結論
上から全て試しましたが、1と2はクローラーも世界中の数百万というウェブページを巡回するわけですから必ず見落とします。絶対にインデックスされたくなければ、3のBasic認証でクローラー自体を排除しましょう。

posted by メガネ君 v0-0v at 19:05 | TrackBack(0) | Webサイト制作 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。