SEO対策の為のロボット型の検索エンジンの基礎知識
ロボット型の検索エンジンの概要
ロボット型検索エンジンは、クローラー/スパイダーと呼ばれるプログラム等があり合計5個のプログラムがあるといわれていて、ウェブ上のドキュメントを巡回しています。
検索エンジンのロボットのプログラムは「スパイダー」「クローラ」「インデクサ」「データベース」「リザルトエンジン」の種類があるようです。
それぞれ、スパイダーがウェブ上のドキュメントをダウンロードし、クローラーがダウンロードしたページのリンクを追跡します。そしてインデクサがそのページを解析し索引付けデータベースで ダウンロードしたページを処理した情報をためて、リザルトエンジンが保存されたデータベースから検索結果を探し出してくれる。という役割を持っています。
検索キー/クエリが与えられると、それぞれ検索エンジンの検索アルゴリズムを基にデータベースの中を検索し、与えられた検索キーワードに対する適合度の高い順に、URLをリストします。
このように、ロボット型検索エンジンの運営プロセスには複数の段階があり、それぞれを受け持つ技術の違いなどが、各検索エンジンの検索結果の違いに現れてくるのです。
SEO,検索エンジン最適化やウェブポジショニングでは、これらの運営プロセスのすべての要素に関して最適化を施し、ウェブページの検索性を高めていきます。
以下では、ロボット型検索エンジンの運営プロセスごとに分けてもう少し説明します。
ロボット型検索エンジンの概要2 クロール
ロボット型検索エンジンのクローラー/スパイダーは、ハイパーリンクをたどってWWW上を巡回します。また、URL登録などのリクエストがあった場合にも、そのURLを訪れます。
サイト作成者としては、クローラー/スパイダーが確実に巡回できるようなドキュメント作りを心がけることで、次のプロセスにつなげることができます。
しかし、検索エンジンがハイパーリンクをたどってくるという特性を逆手に取り、 より多く検索エンジンに自サイトを呼び込もうと意味のない、価値のないリンクを大量に設置する手段を使うSEO対策スパマーが増えたため、リンクポピュラリティについては検索エンジン側もかなり、神経質になり、リンクを評価しない又は、リンクをマイナスj評価されるようになりました。
ロボット型検索エンジンの運営プロセス2 – インデックス
ロボット型検索エンジンのクローラー/スパイダーによって巡回を受けたWWW上のドキュメントは、インデクサによってデータベースに格納されます。(この作業は「インデックス」、「インデクシング」などと呼ばれます。Yahoo!JAPANは2009年頃ではおおよそ、40日から50日程度でインデックスの更新を繰り返しています。)検索エンジンにとって扱いやすいデータに変換してデータベースにインデックスしておくことで、検索結果として適合するURLを高速かつ正確に検索結果として返すことを可能にするための技術です。
形態素解析を用いて単語ごとの切り出しを行ったり、キーワード出現頻度を求めたりと、各検索エンジンがさまざまなな技術を使って、検索エンジンにとって扱いやすいデータを作ります。
サイト運営者としては、インデクサが正常にインデックスを作成できるようにHTMLの知識を持ち、正確なページ作成することが肝心です。
ロボット型検索エンジンの運営概要3 – 検索機能
ロボット型検索エンジンを使用する際に、ユーザーの目に触れるのがこの検索機能です。
検索エンジンは、ユーザーが入力した検索リクエスト(検索キー/クエリ)に対して、適合度の高い順にURLをリストします。
ロボット型検索エンジンが適合度を求めるプログラムの検索アルゴリズムには、テキストマッチ、キーワード出現頻度、要素内でのキー ワード出現位置、キーワードの近接度、クリック人気、リンクポピュラリティー、サイトテーマなど、さまざまな要素が考慮されています。
ロボット型検索エンジンで提供されている検索機能では、これらの要素を総合して検索結果スコアリングを行い、適切な検索結果を導きます。
Leave a Comment
You must be logged in to post a comment.