データマイニング、バスケット分析、クレジット加入審査
マイニング(mining)とは、鉱山用語で金脈などを探索することです。データマイニングとは、大量のデータを分析することにより、貴重な情報を発見するための技術です。一般に高度な統計学の手法を駆使していますが、その操作方法や出力デザインを工夫して、使いやすくしたソフトウェア製品が多く市販されています。 (OLAPツールとの比較)
多次元データベースによるOLAPとデータマイニングは,似ているところもありますが,次のような違いがあげられます。
| OLAP | データマイニング | |
|---|---|---|
| データ量 | 比較的小さい | 極めて巨大 |
| 処理内容 | 単純計算 | 高度な統計学 |
| 処理形態 | かなり定型的 | 毎回異なる |
| 処理方法 | 利用者が指示 | ツールの選択 |
| 結果の解釈 | 実務知識が必要 | 統計学の知識も |
| 利用者 | 各部門の素人が使う | 特定部門の専門家 |
| 利用頻度 | 非常に多い | それほど多くはない |
| 利用環境 | データマート | データウェアハウス |
ダイレクトメールを発送して,来店した人・来店しなかった人に区分したとき,属性(年齢,性別,所得,家族数,職業など)により来店確率を求める手法です。ここで重要なことは、どの属性で区分するかを人間が指定するのではなく、統計手法により最も効率的な絞り込みを自動的に行うことです。右図のような「決定木」という見やすい形で表示します。