上位表示を決定する検索アルゴリズム

検索結果リストは、検索キー等に対して、検索アルゴリズムによって順位付けられた適合度の高い順にリストされます。
この検索アルゴリズムでは、テキストマッチ、キーワード出現頻度、タグごとの重み付け、要素内での出現位置、キーワードの近接度、クリック人気、リンクポ ピュラリティー、サイトテーマなどの要素や、その他の要素を加味した検索エンジンごとに固有の順位付けが行われ、検索結果の表示順位が決められます。
その詳細については各項で述べていくとして、ここでは必ず必要になるベーシックな要素について解説します。

「テキストマッチ」が検索結果にヒットするための基本

検索エンジンは、要求された検索キーに対して、一致するドキュメントのリストを検索結果に表示します。「検索キーに一致した文字列がHTMLファイル内に含まれていること」が、検索結果にリストされる条件なのです。
これが「テキストマッチ」ですね。

検索エンジンはHTMLファイル内の文字情報を分析して検索結果リストを作りますので、キーワードが文字情報として記述されていることが、検索エンジンにヒットさせるための最低限の条件になるのです。
また、画像やFLASHの中に書かれた情報は文字情報ではないため、検索エンジンはこれを理解しません。

画像に文字情報をいれようとするならalt属性で文字を入力してください。

上位表示したいキーワードは、必ず文字情報としてHTMLファイルに記入するかalt属性で入力する必要があります。
これは必ずしもブラウザ画面に文字として見えている部分に限ったことではなく、メタタグ情報として記述していくことも可能です。

キーワード出現頻度による重み付けのアルゴリズム

例えば「アメリカ」という単語が1回しかあらわれないページと、5回あらわれるページでは、後者のほうがより「アメリカ」について語っている、といってよいでしょう。
後者のほうが検索キー「アメリカ」に対する適合度が高く、検索結果の順位も上位にヒットします。

これは、「より多く検索キーと一致するキーワードが含まれるドキュメントのほうが、そのキーワードに対して関連が深い」という考え方に基づくアルゴリズムです。

このアルゴリズムのことを、「キーワード出現頻度」と呼びます。

但し、アホみたいに「アメリカアメリカアメリカアメリカアメリカアメリカ」等と記述すればたちまち、検索エンジンスパムとなりランキングを落とされることになります。

キーワードの要素内での出現位置による重み付けのアルゴリズム

次に、同じく5回ずつ「アメリカ」という単語があらわれる2つのドキュメントがあったとします。

前者は文章中の中盤から後半部分にかけて「アメリカ」という単語が5回あらわれるとします。
後者は、タイトルや見出し、太字部分、本文の先頭付近などに、合わせて5回「アメリカ」という単語が出現するとします。
この場合でも、後者のほうがより検索キー「コンピューター」に対する適合度が高い、とみなされ、検索結果リスト内で上位表示されます。

これは、「同じくキーワードが出現する場合、そのキーワードが目立つように配置されたドキュメントのほうが、そのキーワードに対して関連が深い」という考え方に基づく検索アルゴリズムです。
この「目立つように配置」とは、HTMLの論理構造の観点から強調するためのタグ(論理的強調要素を参照)、見出し要素<h1>〜< h6>、強調要素<strong>、<em>などでマークアップされていることや、単に見栄えを調整するための要素 <b>、<i>、<font>などのタグでマークアップされていることを言います。

サイトテーマによる重み付けのアルゴリズム

ウェブ上に公開されているドキュメントは、多くの場合単独で存在するのではなく、複数のページの集まりによって「サイト」として存在しています。
検索エンジンは従来、ページ単体でのテキストマッチやキーワード出現頻度によってランキングを決定していましたが、現在多くの検索エンジンは「サイト全体のテーマ」を加味して検索結果のランキングを決定します。

このアルゴリズムの特長は「テーマに特化したサイトは多くの関連情報を含むため検索者にとって有益」という考えに基づくもので、サイトテーマ、テーマテクノロジーなどと呼ばれています。
現在日本語対応の検索エンジンでは、Google、Lycos WiseNutなど多数の検索エンジンがこの検索アルゴリズムを採用しています。

コメントを残す