検索エンジンとは
Webページにアクセスするには、直接URLを入力するよりも、GoogleやYahoo!などの検索ポータルサイトを介してアクセスするほうが多いでしょう。これらのポータルサイトで用いている検索システムを検索エンジンといいます。独自の検索エンジンを持つポータルサイトもありますが、他社が開発した検索エンジンを採用しているポータルサイトもあります。
厳密には、検索を行う技術やシステムを検索エンジン、検索エンジンをサービスするWebサイトを検索ポータルサイトといいますが、ここでは混同して用いています。
検索エンジンでは、多数のWebページの収集と分類が重要です。その収集にはディレクトリ型検索とロボット型検索があります。
- ディレクトリ型検索
- 自分のWebページを登録してほしい人は、ポータルサイトに申請し、ポータルサイトの担当者がそのWebページを閲覧・審査して分類・登録する方式です。Webページの数は限定されますが、質の高いページが適切な分類で登録されます。
Yahoo!は当初はこの方式を重視していました。現在でも、専門分野に限定したポータルサイトでは、この方式を重視しています。
- ロボット型検索
- ロボットといわれるソフトウェアが、自動的にWebページを探し、そのページを全文検索してキーワードを採取・分類する方式です。この方式では、検索エンジンの機能と大規模な設備が必要になりますが、膨大なWebページが存在する現在では、この方式が必須になり主流になっています。
Googleは、この方式の代表的なポータルサイトで、多くのポータルサイトがその検索エンジンを利用しています。
多くの検索エンジンは、この両方の方式を組み合わせていますが、ロボット型が主流ですので、以下、ロボット型検索エンジンに限定します。
ロボット型の検索エンジンの機能
- クローラー:Webページ収集ロボット
- 世界中のWebサーバをHTTP/HTTPSによりアクセスして、サーバ内のWebページをすべて取得します。HTMLファイルだけでなく、画像ファイルやPDFファイルなども取得します。
(クローラによる収集を拒否したい場合は、該当ページ内に拒否のmeta情報を与えることができます)
- インデクサ:取得ページの解析・インデクス化
- 取得ページの内容を解析して、タイトルやキーワードとページ自体をインデクス化してデータベースに保管します。
- クエリサーバ:利用者の検索の分析と検索結果の表示機能<.dt>
- 利用者からの検索キーワードを分析し、インデクサで作成したデータベースから一致度が高い順にリスト表示します。
検索エンジンの検索結果を表示するページをSERP(Search Engine Result Page)といいます。
検索エンジンの質は、「リクエストとの一致度が高い順」が優れていることが重要です。単にリクエストの文字列が多いだけでなく、信頼性の高いページを優先することも大切です。順位付けの方法をアルゴリズムといいますが、高度の企業秘密であり、検索エンジンにより異なりますし、頻繁に改良されているといわれています。
検索方法の改善
- 適合率と再現率
- 検索エンジンを評価する尺度には、適合率(precision )と再現率(recall)があります。どちらも大きいことが望まれます。
(ここでは、あるキーワードに合致するページを正解とします。)
- 適合率=検索された正解件数/検索件数
検索したページのうち、正解がどれだけあるかの比率。これが小さいと不要なページが多く検索されたことになる。
- 再現率=検索された正解件数/Web全体での正解件数
全体の正解ページ(測定困難だが)のうち、検索された比率。これが小さいと、適切なページを取りこぼしたことになる。
- F値=適合率と再現率の調和平均=(2×適合率×再現率)/(適合率×再現率)
=(2×検索された正解件数)/(検索件数+全体の正解件数)
これが大きいほうが、優れているといえる。
- シソーラス(thesaurus:類語辞典)
- 単語や熟語について、その類義語、同義語、反意語など関連する語彙を収めた辞典のことです。
例えば、「バラ」で検索したとき「薔薇」や「ローズ」であっても正解とすることにより、再現率を高くすることができます。険検索エンジンでは、標準的な辞典だけでなく、インデクサ機能などにより、実務的なシソーラスに更新しています。
- オントロジ(ontology:存在論、実体学)
- 難解な概念ですが、単純にいえば意味情報のことです。検索対象となる文書が単なる単語の集まりとしてではなく、文書全体で大きな意味をもつ用語で分類します。
- セマンティック検索
- セマンティック(semantic)とは、背景や文脈などから得る意味や本質で、ここではオントロジと同じようなものだとしてよいでしょう。
セマンティックWebとは、Webページにセマンティックのタグ(メタデータ)を付け加えることです。
セマンティック検索とは、データとそれに対する処理を組み合わせたオブジェクトに、認識や判断の機能を加え、利用者者の検索要求に対して、その意図を判断する高度な検索技術です。キーワードをはじめとする入力情報に含まれる「検索ユーザの意図・目的」を検索エンジンが適切に理解し、ユーザの求めるものに即した検索結果を提供するという概念、またはそのための技術を指します。これにより、ページを絞ることができ、適合率を上げられます。
- エンティティ検索
- エンティティ(entity)とは、モノやイベントなどのことです(E-R図のエンティティとほぼ同じ)。多くのエンティティを設定しておき、Webページをエンティティに結び付けます。セマンティック検索と似た効果があります。
SEO
検索エンジンでは、検索結果を適合度ランクの高い順に表示します。そのランク付けをするために高度な評価アルゴリズムを開発しています。
逆に、特に商取引でのWebページ側では、閲覧者の増加が重要ですから、上位にランク付けされることが重要になります。それで、著名な検索エンジンの評価アルゴリズムを研究して、高く評価されるような工夫をすることになります。その技術をSEO(Search Engine Optimization)といいます。
適切なSEOは検索エンジンとしても望ましいのですが、なかには過剰な対策や、Webページの内容と合致しない対策をすることもあり、それは検索エンジンの信頼性を低下させます。それで、評価アルゴリズムは秘密にしています。
参照:SEO
パーソナライズド検索
検索エンジン側が個人の特性や検索履歴を収集・分析することにより、各人に合わせてカスタマイズした検索結果を表示する機能です。
例えば、東京に住んでいる人が「ラーメン店」で検索すると、東京近辺にあるラーメン店を優先して表示するとか、花に関する検索が多い人が「十二単」で検索すると、衣服ではなく花のジュウニヒトエが上位に表示されるような仕組みです。
これにより、適合率の高い検索結果になります。
レコメンデーション
推奨のことです。検索エンジンには広告欄があります。パーソナライズド機能により、関心を持ちそうな広告を掲げます。
例えば「冷蔵庫」の検索を続けると、広告欄に冷蔵庫の広告が増加します。冷蔵庫に無関係なWebページを閲覧しても冷蔵庫のバナー広告が頻出することがあります。便利な面もありますが、監視されているようで不気味な気分にもなります。
私はよく知らいないのですが、検索エンジン、販売サイト、Web広告代理店などの間で情報交換が行われているともいわれています。
フィルタバブル
検索エンジンがパーソナライズド検索機能を強化すると「ユーザの望む」情報を優先して表示する、望まない情報はフィルタリングするようになります。
それが進むと、見たくないような情報が泡(バブル)に包まれたようにフィルタされ、自分が見たい情報しか表示されなくなります。それをフィルタバブルといいます。
その結果、偏った情報しか得られず、適切な判断ができなくなる傾向が生じます。それが社会的・政治的な分野に及ぶと由々しき問題になります。
検索エンジンの収入
検索エンジンを運営するには、上述のように高度な技術開発や膨大なアクセスに耐える設備が必要です。それを賄うだけの収入源が必要です。
- 最大の収入源は広告収入です。検索結果の画面には広告欄があります。限定されたスペースで件数もわずかですが、検索キーワードなどと連携しているので、広告料はかなり高いといわれています。
- 検索エンジンを他のポータル運営者が利用できる利用権収入があります。
- 近年は、利用者の検索履歴やその分析結果の提供サービスによる収入が増大しています。
- 著名な検索エンジン、ポータルサイトでは、高度な技術とノウハウ、膨大なアクセスサイト、知名度などを活用して、多様なアプリケーションの有料利用、販売サイトの運営など多角化事業をしています。