データマイニングとは、計算機科学の一分野に属する情報技術である。
概要
マイニングminingという言葉が指示す通りデータの集合体から有益な事物を発掘(=抽出)する事が主たる目的である。
データマイニングには様々な手法が用いられるが、データに対して施す基本的な操作は次の5つに纏められる※。
※http://www.albert2005.co.jp/technology/mining/basic_process.htmlより
抽出
抽出(extraction)を行う方法として先ず挙げられるのはデータのフィルタリングである。
フィルタリングは特定要素に属するデータを抽出対象外とする事で残ったデータのみを抽出する効果がある。ゴミとなる不要データを弾く事は特にデータクレンジングと呼ばれ、NGワード指定やマイナス検索などもその一種である。
ソーティング
ソーティングはデータをある一定の規則に従って並べ替え整理する事で、一覧表示などの際に更新日時、サイズなどを昇順または降順で指定して読込むのがこれに当たる。
グループ化
グループ化(grouping)は対象となるデータをカテゴリなどで区分けする事で、ゲームソフトのタイトルであればジャンル別、機種別などで幾つかのグループに分類していくのがこれに当たる。タギングなどもグループ化の一種と言える。
体系的なグループ化手法として代表的なものにクラスタリング(clustering)がある。クラスタリングは階層的手法と非階層的手法の2つに分けられる。また帰属度の違いによってハードクリラスタリングとソフトクラスタリングに分類される。
階層的手法には次の様なものがある。
最短距離法 (nearest neighbor method) [単連結法 (single linkage method)]
最長距離法 (furthest neighbor method) [完全連結法 (complete linkage method)]
群平均法 (group average method)
ウォード法 (Ward’s method)
セントロイド法(Centroid Method)
メジアン法(Meidan Method)
非階層的手法には次のようなものがある
■ハードクラスタリング
k平均法(k-means clustering)
キャノピー法(canopy clustering)
平均シフト法(Mean-Shift clustering)
■ソフトクラスタリング
ファジーk平均法(fuzzy k-means clustering)
数値特性分析
特性分析はデータの性質を調べるもので、数値化可能な要素を取り出してそこから読取れる物を明らかにしていく。商品であれば売上や価格推移、在庫率などのデータから売物としての優等性などが数値化可能である。
相関分析
相関分析はデータとデータの間にどのような関係があるかを解析するものである。相関分析には大きく分けてピアソンの積率相関分析と、スピアマンの順位相関分析がある。
ビッグデータとの関係
IBMの研究者はビッグデータが持つ特徴を次の'4つのV'を使って説明している。
Volume(容量の大きさ)
Variety(多様性、種類)
Velocity(スピード、頻度)
Veracity(正確さ)
ビッグデータの種類としては次の様なものがある。
検索履歴
Web行動履歴
ショッピングサイトの購買履歴
POS
SNS・BBSなどへの書込
サポートへの問合わせ
カード決済履歴
広告配信
関連動画
関連商品
関連項目
- 0
- 0pt