兵庫県西宮市のWEBサービスソリューションならHeartsN|全国対応
0798-78-2212 営業時間10:00~17:00(土日祝休)

クローラの意味と使い方をマスターしよう!

クローラ、もしくはクローラーとは、検索エンジンのデータベースを作成するために、世界中のウェブページを回収する機械のことをいいます。

 

検索エンジンの種類

検索エンジンは大きく、ディレクトリ型検索エンジンロボット型検索エンジンの二つに分類することができます。

検索エンジンの種類

 

ディレクトリ型検索

ディレクトリ型検索エンジンとは、リンクを集めて分野別にまとめた一覧内にあるウェブサイトのみを表示する検索エンジンです。エディタと呼ばれる人間が審査を行い、その審査に合格したウェブサイトのみが検索エンジンに登録されます。人が合格させたウェブサイトしか検索に引っかからないため、ウェブサイトの質は高くなりますが、その分検索で引っかかるウェブサイトの数は少なくなります。

 ロボット型検索エンジン

一方、ロボット型検索エンジンとは、世界中のすべてのウェブサイトをチェックする機械があり、その機械がチェックしたウェブサイトが検索に引っかかるタイプの検索エンジンです。ディレクトリ型と違い人の審査が入っていないため、危険なサイトが引っ掛かることもありますが、その代わり検索で引っかかるウェブサイトの数自体はとても多いです。

現在の検索エンジンはディレクトリ型とロボット型双方のいいとこどりをしたものが多いです。

 

クローラとは

クローラとは

クローラとは、ロボット型検索エンジンにおいて、ウェブサイトをチェックする機械のことです。クローラはウェブサイトの情報を次々と集めていきます。その情報は解析され、データベースに登録されます。この処理をインデックスといいます。インデックスされたページはランキングアルゴリズムという仕組みに基づいてスコアリングされ、そのスコアが高いウェブサイトが検索で上位に表示されます。

クローラがウェブサイトをチェックする方法にはいろいろあります。HTMLだけでなく、テキストファイルやPDFファイル、エクセルやワードで作ったファイルもチェックすることがあります。そのため、適切な設定を行わないと、社内文書がネットに流出してしまう可能性があります。

クローラに情報を回収させないためには、HTML内に検索を拒否するメタタグを記入したり、ウェブサーバーの公開ディレクトリ最上層にロボットの挙動を指定するファイルを配置するという方法があります。しかし、これらの方法も完璧なものではありません。社外に絶対流出させてはいけない文章には適切なアクセス権を設定し、社外の人間からはどうやっても見えないようにすることが大切です。

あなたのお悩み聞かせて下さい! WEBマーケティングならHeartsNへ
ご相談、お見積りは無料! まずは気軽にご相談下さい。
0798-78-2212 受付時間:平日10:00~17:00(土日祝休)