Web教材一覧AI

データマイニング

キーワード

データマイニング、遺伝的アルゴリズム、バスケット分析、クレジット加入審査


マイニング(mining)とは、鉱山用語で金脈などを探鉱することです。データマイニングとは、大量のデータを分析することにより、貴重な情報を「発見」するための方法です。

現在では、AIの適用分野の一つに位置付けられていますが、1980年代では、データの高度な統計処理と認識されていました(ここでもその視点で説明します)。

当時は、データの活用で注目されていたデータウェアハウス(データマート)でのOLAPとの対比で説明されるのが通常でした。
        OLAP    データマイニング
  データ量  比較的小さい  極めて巨大
  処理内容  単純計算    高度な統計学
  処理形態  かなり定型的  毎回異なる
  処理方法  利用者が指示  ツールの選択
  結果の解釈 実務知識が必要 統計学の知識も
  利用者   各部門の素人  特定部門の専門家
  利用頻度  非常に多い   それほど多くはない
  利用環境  データマート  データウェアハウス
 従来の統計的方法のライブラリは整備されていましたが、計画部門などシステム部門以外の人が使うことから、操作の容易性、出力のグラフ化などが重視され、専用のアプリケーションが多く出現しました、

データマイニングの主な技法

クラスタ分析
グループ分け,似たもの集めとでもいうべき手法です。例えば,顧客をいくつかの層に分類するとき,通常では性別,年齢別,購入金額別というように人間が事前に切り口を決めて分類しますが,クラスタ分析では,それらを事前に与えるのではなく,統計的にそれらの間にどのような関係があるかを調べて,似たようなものを同じグループにまとめるのです。それによって20代の女性と40代の男性で1回に購入する金額が高いグループとか40代の女性で1回の購買額は少なく購買頻度が多いグループなどに区分します。これによって,顧客を層別してそれぞれに適したマーケティングをすることができます。
決定木
ダイレクトメールを発送して,来店した人・来店しなかった人に区分したとき,属性(年齢,性別,所得,家族数,職業など)により来店確率を求める手法です。ここで重要なことは、どの属性で区分するかを人間が指定するのではなく、統計手法により最も効率的な絞り込みを自動的に行うことです。右図のような「決定木」という見やすい形で表示します。
アソシエーション
何と何が一緒に発生するかを発見する手法です。例えば,スーパーで一人あたりの売上を増大させるには,「ついで買い」をさせることが効果的です。商品Aを買う人は商品Bも買うことが多いことがわかれば,そのような併買商品を近くに陳列すると,顧客も便利ですし,ついで買いも高まります。そのような分析をバスケット分析といいます。このとき,商品が非常に多いので「A商品と併買する商品は?」「B商品では?」というように事前に商品を決めて分析するのは困難です。アソシエーションは,それを事前指定せずに併買関係を求める方法です。
遺伝的アルゴリズム(Genetic Algorithm、GA)
種の進化の考え方により、いくつかの特性の配列(遺伝子配列)をもつN個データ群(現世代)から、最大の適合度を持つ特性の配列のデータ群(将来世代)を求まる、最適化手法です。
●最適化の手段
1 現世代に N 個の個体をランダムに生成する。
2 何らかの基準で各個体の適合度を計算して上位M個を選択する。
3 ある確率で次の3つの動作のどれかを行い、その結果を次世代に保存する。
 ・個体を一つ選択してそのままコピーする。
 ・個体を二つ選択して交叉(遺伝子配列を組合わせて新しい種とする)を行う。
 ・個体を一つ選択して突然変異(遺伝子配列の中の特定のビットを逆転する)を行う。
4 Mが適当な少数になればそれが解になり打ち切り。
さもなければ、次世代を現世代として2へ戻る。
●遺伝的アルゴリズムの位置づけ
アルゴリズムの視点では、最適化問題の組合せ問題に近い。
しかし、発表されたのが1975年で、実務での利用が普及したのが、データマイニングと同時点の1980年代だったので、データマイニングの技法として位置づけられることが多かった。
遺伝的アルゴリズムは、ニューラルネットワーク普及以前であり、それを用いていないが、現在では、ニューラルネットワークの重み推定に遺伝的アルゴリズムを用いることもある。

データマイニングの代表的な適用例

バスケット分析
アソシエーションの適用例です。POSデータを分析して陳列方法を検討します。何と何を一緒に買うことが多いかを発見し、AとBを隣接したコーナーに有名な例として,「紙オムツやベビーミルクとビールの併売」があります。米国では奥さんに頼まれてダンナが車でスーパーに買いに行くのが通常ですが,そのときに赤ちゃんのものだけでなく自分用にビールをケースごと買って行くのだと説明されています。でもこれは「伝説」でしょう。
クレジット加入審査
クレジットカードを用いたのに後日支払をしない客を不良客といいますが、そのときにはクレジット会社の損失になります。不良客の加入を避けるために、クレジット会社では加入時に、年齢、性別、職業、持ち家などのデータにより審査をします。優良客と不良客の違いの特徴を、過去のデータを分析することにより、合理的な審査基準を作成できます。その分析に、データマイニングが用いられています。
インターネットアクセスの分析
Web販売では、そのWebサイトにどこから(直接に、ポータルサイトから、バナー広告から)来たのか、購入までにページをどのように動いたかなどを記録して分析することにより、効果的な広告の出し方やWebページの工夫に活用できます。大量の記録データから、購入に関係する要因を発見するために、データマイニングは強力なツールになります。

データマイニングでの留意点

データクレンジング
データクリーニング、データ洗浄ともいいます。
データマイニングの元になるデータは、日常業務で収集・蓄積したデータですが、これをそのまま使うのは不適切なことがあります。このようなデータについて適切な修正をする(データを洗う)必要があります。
統計的・実務的な素養が必要
統計的な結果を分析する場合、統計的素養がないと、実際には有意差がないのに、違いがあるかのように誤解する場合があります。
統計的処理はあくまでも実務的な因果関係を無視した数値的処理です。それを鵜呑みにするのは危険があります。

人工知能(AI)へ