データマイニング単語

データマイニング

1.5千文字の記事
掲示板をみる(0)
  • twitter
  • facebook
  • はてな
  • LINE
  • ほめる(0)
  •  
  •  
  •  
  •  
  • その他

データマイニングとは、計算機科学の一分野に属する情報技術である。

概要

マイニングminingという言葉が示す通りデータ集合体から有益な事物を発掘(=抽出)する事がたる的である。

データマイニングには様々な手法が用いられるが、データに対して施す基本的な操作は次の5つにめられる

http://www.albert2005.co.jp/technology/mining/basic_process.htmlより

抽出

抽出(extraction)を行う方法として先ず挙げられるのはデータフィルタリングである。

フィルタリング特定要素に属するデータを抽出対外とする事で残ったデータのみを抽出する効果がある。ゴミとなる不要データを弾く事は特にデータレンジングと呼ばれ、NGワード定やマイナス検索などもその一種である。

ソーティング

ソーティングはデータをある一定の規則に従って並べ替え整理する事で、一覧表示などの際に更新日時、サイズなどを昇順または降順で定して読込むのがこれに当たる。


グループ化

グループ化(grouping)は対となるデータカテゴリなどで区分けする事で、ゲームソフトタイトルであればジャンル別、機種別などで幾つかのグループに分類していくのがこれに当たる。タギングなどもグループ化の一種と言える。

体系的なグループ化手法として代表的なものにクラスタリング(clustering)がある。クラスタリングは階層的手法と非階層的手法の2つに分けられる。また帰属度の違いによってハードクリラスタリングソフトクラスタリングに分類される。

階層的手法には次の様なものがある。

最短距離法 (nearest neighbor method) [単連結法 (single linkage method)]
最長距離法 (furthest neighbor method) [連結法 (complete linkage method)]
均法 (group average method)
ウォード法 (Ward’s method)
セントロイド法(Centroid Method)
メジアン法(Meidan Method)

非階層的手法には次のようなものがある

ハードクラスタリング
k均法(k-means clustering)
キャノピー法(canopy clustering)
シフト法(Mean-Shift clustering)

ソフトクラスタリング
ファジーk均法(fuzzy k-means clustering)

数値特性分析

特性分析はデータの性質を調べるもので、数値化可な要素を取り出してそこから読取れる物を明らかにしていく。商品であれば売上や価格推移、在庫率などのデータから売物としての優等性などが数値化可である。

相関分析

相関分析はデータデータの間にどのような関係があるかを解析するものである。相関分析には大きく分けてピアソンの積率相関分析と、スピアマンの順位相関分析がある。

ビッグデータとの関係

IBM研究者はビッグデータが持つ特徴を次の'4つのV'を使って説明している。

Volume(容量の大きさ)
Variety(多様性、種類)
Velocity(スピード、頻度)
Veracity(正確さ)

ビッグデータの種類としては次の様なものがある。

検索履歴
Web行動履歴
ショッピングサイトの購買履歴
POS
SNSBBSなどへの書込
サポートへの問合わせ
カード決済履歴
広告配信

関連動画

関連商品

関連項目

この記事を編集する

掲示板

掲示板に書き込みがありません。

おすすめトレンド

急上昇ワード改

最終更新:2023/02/07(火) 21:00

ほめられた記事

最終更新:2023/02/07(火) 21:00

ウォッチリストに追加しました!

すでにウォッチリストに
入っています。

OK

追加に失敗しました。

OK

追加にはログインが必要です。

           

ほめた!

すでにほめています。

すでにほめています。

ほめるを取消しました。

OK

ほめるに失敗しました。

OK

ほめるの取消しに失敗しました。

OK

ほめるにはログインが必要です。

タグ編集にはログインが必要です。

タグ編集には利用規約の同意が必要です。

TOP