データマイニング単語


ニコニコ動画でデータマイニングの動画を見に行く
データマイニング
1.5千文字の記事
  • 0
  • 0pt
掲示板へ

データマイニングとは、計算機科学の一分野に属する情報技術である。

概要

マイニングminingという言葉が示す通りデータ集合体から有益な事物を発掘(=抽出)する事がたる的である。

データマイニングには様々な手法が用いられるが、データに対して施す基本的な操作は次の5つにめられる

http://www.albert2005.co.jp/technology/mining/basic_process.htmlより

抽出

抽出(extraction)を行う方法として先ず挙げられるのはデータフィルタリングである。

フィルタリング特定要素に属するデータを抽出対外とする事で残ったデータのみを抽出する効果がある。ゴミとなる不要データを弾く事は特にデータレンジングと呼ばれ、NGワード定やマイナス検索などもその一種である。

ソーティング

ソーティングはデータをある一定の規則に従って並べ替え整理する事で、一覧表示などの際に更新日時、サイズなどを昇順または降順で定して読込むのがこれに当たる。


グループ化

グループ化(grouping)は対となるデータカテゴリなどで区分けする事で、ゲームソフトタイトルであればジャンル別、機種別などで幾つかのグループに分類していくのがこれに当たる。タギングなどもグループ化の一種と言える。

体系的なグループ化手法として代表的なものにクラスタリング(clustering)がある。クラスタリングは階層的手法と非階層的手法の2つに分けられる。また帰属度の違いによってハードクリラスタリングソフトクラスタリングに分類される。

階層的手法には次の様なものがある。

最短距離法 (nearest neighbor method) [単連結法 (single linkage method)]
最長距離法 (furthest neighbor method) [連結法 (complete linkage method)]
均法 (group average method)
ウォード法 (Ward’s method)
セントロイド法(Centroid Method)
メジアン法(Meidan Method)

非階層的手法には次のようなものがある

ハードクラスタリング
k平均法(k-means clustering)
キャノピー法(canopy clustering)
シフト法(Mean-Shift clustering)

ソフトクラスタリング
ファジーk平均法(fuzzy k-means clustering)

数値特性分析

特性分析はデータの性質を調べるもので、数値化可な要素を取り出してそこから読取れる物を明らかにしていく。商品であれば売上や価格推移、在庫率などのデータから売物としての優等性などが数値化可である。

相関分析

相関分析はデータデータの間にどのような関係があるかを解析するものである。相関分析には大きく分けてピアソンの積率相関分析と、スピアマンの順位相関分析がある。

ビッグデータとの関係

IBM研究者はビッグデータが持つ特徴を次の'4つのV'を使って説明している。

Volume(容量の大きさ)
Variety(多様性、種類)
Velocity(スピード、頻度)
Veracity(正確さ)

ビッグデータの種類としては次の様なものがある。

検索履歴
Web行動履歴
ショッピングサイトの購買履歴
POS
SNSBBSなどへの書込
サポートへの問合わせ
カード決済履歴
広告配信

関連動画

関連商品

関連項目

【スポンサーリンク】

  • 0
  • 0pt
記事編集 編集履歴を閲覧

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

データマイニング

まだ掲示板に書き込みがありません…以下のようなことを書き込んでもらえると嬉しいでーす!

  • 記事を編集した人の応援(応援されると喜びます)
  • 記事に追加して欲しい動画・商品・記述についての情報提供(具体的だと嬉しいです)
  • データマイニングについての雑談(ダラダラとゆるい感じで)

書き込みを行うには、ニコニコのアカウントが必要です!