無料でSEO対策を研究する上位表示研究会

本当のSEO対策をしたホームページを作りたいのなら是非この本を読んでください。HTML,CSSについても優しく載っているのですごく重宝します。(私は今でもたまに読みます。)これを読めば、SEO対策の基本に気づくかも!?

形態素解析/シソーラス

形態素解析

形態素解析 とは、 ウィキペディアで調べると「コンピューター等の計算機を用いた 自然言語処理 の基礎技術のひとつで、 自然言語 で書かれた文を 形態素 ( Morpheme , おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、 品詞 ( Part-of-speech ) を見分ける作業である。参照する情報源として対象言語の 文法 の知識(ここでは文法のルールの集まり)と 辞書 (品詞等の情報付きの単語リスト)を用いるものが多い。 」とあります。
この形態素解析は、ロボット型検索エンジンをはじめとする全文検索型データベースでは非常に大切な技術なのですが、ここでは特にロボット型検索エンジンと形態素解析の関わりについて解説します。

ロボット型検索エンジンが検索結果のスコアリングすなわち順位結果をおこなう基本的な技術に、キーワード出現頻度の判定があります。
このキーワード出現頻度とは、そのドキュメントの中での「分子- 特定単語の使用数 / 分母 - 全体で使用されている単語の総数」のことです。この技術に関しては別のページ「キーワード出現頻度」で解説していますので詳細は省きますが、この数値を算出するためには、「ドキュメント全体で使用されている単語の総数」を求める必要があります。
ドキュメント全体で使用されている単語の総数を求めるためには、自然文を解析して単語ごとに切り出す必要がありますが、日本語の文章では英語やヨーロッパ言語と違い、単語間にスペースなどの区切りがありません。このため、単語ごとの切り出しをおこなうためには、単語辞書を使用した自然文解析技術が必要になります。

形態素解析の利用と検索結果の変化

完全一致型の検索システムの場合と、複合検索(フレーズ検索)が可能なタイプの検索システムの動作を例にとって、形態素解析を使用する場合と使用しない場合の検索精度の差について解説してみましょう。

完全一致型の検索システムの場合、形態素解析は必要ありません。
例えば検索キー「検索エンジン最適化」で、完全一致型の検索システムを使用した場合、「検索エンジン最適化」というフレーズがそのまま含まれるドキュメントだけが検索結果に返されます。Yahoo! Japanのサイト検索などがこのタイプの代表です。

複合検索(フレーズ検索)が可能なタイプの検索システムにとって、形態素解析は必要不可欠な技術です。
前の例の検索キー「検索エンジン最適化」で言えば、このタイプのシステムでは以下のような動作をおこないます。

検索キーを単語ごとに切り出す「検索/エンジン/最適/化」

検索式「検索+エンジン+最適+化」として検索

つまりこの場合、「検索エンジンの最適化」や「検索のためのエンジンを最適化」のような文章が含まれるドキュメントも検索結果に返されます。
インターネット上で公開されているほとんどのロボット型検索エンジンはこのタイプです。

シソーラス

シソーラスとは 、情報検索に用いる指標(インデックス)で、1つの見出し語について、同義語、広義語、狭義語、関連語に分類整理したもので自然文解析というアプローチで全文検索型データベース、ロボット型検索エンジンを捉えるとき、今後重要な技術になると思われているのがこのシソーラスです。
日本語に限らず、各国の言語には多くの同義語、関連語が存在します。また、まったく同じ語で表記が違う場合もあります。
例えば「検索エンジン」と「サーチエンジン」の二つの語は、まったく同じ意味を持っていますが、表記の違いのために、検索システムには別の語として認識されてしまいます。このような同義語や表記の違いなどを吸収するための辞書をシソーラス辞書といい、この辞書が実装されることで、検索エンジンの機能は飛躍的に上がっていくものと考えられています。
なお現在でも、単なる同義語辞書はフレッシュアイやLycos Japanのエンジンには搭載されていますし、Infoseekでは「つぼシーク」「つながりシーク」などのサービスが提供されています。

Copyright © 2005-2006 上位検索研究会 All Right Reserved 無断転載・コピー・転送等を禁じます