ニコニコ大百科モバイル

7/2(月)よりスマホまたはPCでアクセスした場合、各デバイス向けのサイトへ自動で転送致します


データマイニング


ヨミ: データマイニング

データマイニングとは、計算機科学の一分野に属する情報技術である。


概要


マイニングminingという言葉が示す通りデータ集合体から有益な事物を発掘(=抽出)する事がたる的である。

データマイニングには様々な手法が用いられるが、データに対して施す基本的な操作は次の5つにめられる

http://www.albert2005.co.jp/technology/mining/basic_process.htmlより


抽出


抽出(extraction)を行う方法として先ず挙げられるのはデータフィルタリングである。

フィルタリング特定要素に属するデータを抽出対外とする事で残ったデータのみを抽出する効果がある。ゴミとなる不要データを弾く事は特にデータレンジングと呼ばれ、NGワード定やマイナス検索などもその一種である。


ソーティング


ソーティングはデータをある一定の規則に従って並べ替え整理する事で、一覧表示などの際に更新日時、サイズなどを昇順または降順で定して読込むのがこれに当たる。



グループ化


グループ化(grouping)は対となるデータカテゴリなどで区分けする事で、ゲームソフトタイトルであればジャンル別、機種別などで幾つかのグループに分類していくのがこれに当たる。タギングなどもグループ化の一種と言える。

体系的なグループ化手法として代表的なものにクラスタリング(clustering)がある。クラスタリングは階層的手法と非階層的手法の2つに分けられる。また帰属度の違いによってハードクリラスタリングソフトクラスタリングに分類される。

階層的手法には次の様なものがある。

最短距離法 (nearest neighbor method) [単連結法 (single linkage method)]
最長距離法 (furthest neighbor method) [連結法 (complete linkage method)]
均法 (group average method)
ウォード法 (Ward’s method)
セントロイド法(Centroid Method)
メジアン法(Meidan Method)

非階層的手法には次のようなものがある

ハードクラスタリング
k均法(k-means clustering)
キャノピー法(canopy clustering)
シフト法(Mean-Shift clustering)

ソフトクラスタリング
ファジーk均法(fuzzy k-means clustering)


数値特性分析


特性分析はデータの性質を調べるもので、数値化可な要素を取り出してそこから読取れる物を明らかにしていく。商品であれば売上や価格推移、在庫率などのデータから売物としての優等性などが数値化可である。


相関分析


相関分析はデータデータの間にどのような関係があるかを解析するものである。相関分析には大きく分けてピアソンの積率相関分析と、スピアマンの順位相関分析がある。


ビッグデータとの関係


IBMの研究者はビッグデータが持つ特徴を次の'4つのV'を使って説明している。

Volume(容量の大きさ)
Variety(多様性、種類)
Velocity(スピード、頻度)
Veracity(正確さ)

ビッグデータの種類としては次の様なものがある。

検索履歴
Web行動履歴
ショッピングサイトの購買履歴
POS
SNSBBSなどへの書込
サポートへの問合わせ
カード決済履歴
広告配信


関連動画



■1460969921[ニコ動]

■1427028111[ニコ動]


関連商品


■az477416674X
■az4873115132


関連項目



最終更新日: 16/10/07 07:25
タグ検索 パソコン版を見る


[0]TOP
ニコニコ動画モバイル
運営元:ドワンゴ