Google対策型検索エンジン
とページランクとは?
ロボット型検索エンジンをを理解する

クローラーの巡回


 ロボット型検索エンジンではクローラーがリンクをたどりながら自動的にページを収集するわけですが、ここではクローラーが正常に巡回できない限り検索エンジンには登録されることは無い。したがって検索結果にもそのサイトは登録しない、という点に注意しておきたい。多くのクローラーは<a>タグを利用したリンクしか認識できない。javascriptによるプルダウンメニューや、Flashを使用したナビゲーションなどは、現時点では使用を避けたほうが良いのである。リンクには必ず<a>タグを使うようにしましょう。
 またGooglewoはじめとする第三世代の検索エンジンにとって、<a>タグによるリンクでページ同士を繋ぐことは、検索性を高めるために非常に重要な要素なのである。

インデクシング


 クローラーが巡回、収集したWeb上のドキュメントはインデクサと呼ばれるプログラムによって中間処理され、検索機能が扱いやすいデータに変換されてからデータベースに格納される。実際の検索はこのインデクサによって中間処理されたデータから行われているのである。
 インデクサが行う処理の内容は検索エンジンごとに異なっていて、詳細も公表されていないが、この作業はより精度の高い検索結果を高速に導き出すために行われる。形態素解析を用いて単語ごとの切り出しを行うとともに、検索の対象にならないストップワードやスクリプト記述部分やタグといった検索に使用しないデータをあらかじめ省いてインデックスすることでデータベースを小さくし、高速な検索を実現するのである。また、キーワードごとに出現頻度、タグごとに加点処理などを行うことで検索精度を向上させている。これらの処理が正確に行われるようなサイト作りが重要です。

クエリープロセス


 ロボット型検索エンジンが運営するプロセスのうち、直接ユーザーの目に触れるのが、実際に検索を行うクエリープロセス部分である。ここでは、ユーザーの検索リクエストを受け、リクエストに対して適合度の高い順にURLリストを作成する作業を行っている。
 検索リクエストに対する適合度は「スコア」と呼ばれ、各検索エンジンはそれぞれ独自のアルゴリズムによってこのスコアを算出する。基本はテキストマッチとキーワード出現頻度、タグごとの重みづけだが、このほかにもリンクポピュラリティやクリックの人気度合い、キーワード近接度、Webサイトテーマといった要素が加味されて、最終的なスコアが決まるのである。

ページランク 【PageRank】

別名 Google PageRank

 Google社が開発し、自社の検索エンジンに搭載している、Webページの重要度の判定技術。また、算出された各Webページの重要度の指数。

 「多くの良質なページからリンクされているページは、やはり良質なページである」 という再帰的な関係をもとに、ページの重要度を計算している。あるページから別のページへのリンクを、リンクされたページへの「支持投票」とみなし、それにリンク元のページの重要度(そのページの被リンク数)の重みをつけて加算し、投票数によりそのページの重要性を判断している。ページの内容は影響しない。

 検索エンジンは従来、ページの内容と検索された単語との関連性の高さを判断し、検索結果の表示順位を決めていたが、Google社はPageRankの導入により、どれだけ多くの人が注目しているかという新しい指標を検索エンジンに持ち込んだ。同社ではページ内容の関連性の高さとPageRankの両方を総合的に判断して検索結果を表示している。どちらをどれくらい重視しているかは公表されていない。


ページランクを上げるには沢山の検索エンジンに登録する必要があります。

                   TOPにもどる