ニコニコ大百科モバイル

7/2(月)よりスマホまたはPCでアクセスした場合、各デバイス向けのサイトへ自動で転送致します


統計学


ヨミ: トウケイガク
掲示板をミル!
68カキコ!

統計学(statistics)とは、統計に関する研究を行う学問である。

ツイートを読み込み中です
https://twitter.com/gacco_MOOC/status/1331871487792349188[外部]

概要


元々は国家の状態を把握するための学問。後に数学的に発展していく。

現在ではほぼあらゆる企業、学問分野で使用されており、恐らくはもっとも汎用性のある学問。

統計学を利用してなんらかの仮説を実するものと、統計学そのものを数学的に研究する場合の二種類あるが、前者の場合は最近だと統計ソフトEXCELが有名だろう)が発達しているので数学的知識に乏しい人でも統計学が使えるようになった。便利な時代である。

記述統計学、推測統計学、及びベイズ統計学の3種類に大別できる。


統計学の使い方の一例


例えばかが「日本人パンよりご飯の方が好き」というをしたとしよう。しかし、ただそうしただけでは「お前がそう思うんならそうなんだろうな。お前ん中ではな」と言われてしまうのがオチである。そのため彼が自分のを認めてもらいたいのならば、彼はを正しいと明するための「ソース」、「拠」が必要となる。運良くネット上などにソースが転がっていればよいのだが、もしなければ彼は自分で調して拠を作り出す必要がある。

では実際に彼はどういう調をすれば良いだろうか?っ先に思いつくのは「全ての日本人に『あなたはパンご飯、どっちが好きですか?』とアンケートを取る」方法である。しかし一億三千万人以上いる日本人全てにアンケートを取るのは明らか現実的ではない。かといって適当に10人くらいに聞いてみたところで「それお前の周りだけじゃね?」と言われてしまうだけだ。それでは何人ならアンケートの結果が信用できると言えるだろうか?統計学はこういうときに大体どれくらいの人数にアンケートをすればある程度信頼できるものになるかを教えてくれる学問なのだ。

仮説の実というのは学問はもちろん日常生活でも常に要されうることである。例えば「お客さんはどんなことを会社に要しているのか」、「読者はどんな漫画読みたいのか」そういう意味で、統計学を学ぶことは有用なことだろう。


統計は信用できる?


「統計学的にこれは既に明されている」、「〜という統計データが存在する」

普段からこのような言葉をにすることは多いだろう。しかしこれらの言葉。実に胡散臭いのである。実際に統計データが発表者によって恣意的に結果が操作されている場合も少なくない。いわゆる数字のマジックというやつである。

アンケートの数字そのものが竄されている場合は論外として、統計学的に正しい操作をしても結果を実際の状態と大きくずらす(ずれる)ことは非常に容易いことなのである。一例を以下にあげる。

内閣支持率調 2012/10/26を行い、85,658人の方に回答をいただきました。

結果は次のようになりました。

政党 支持率
民主党 4.6%
自民党 32.2%
維新の会 5.8%
公明党 1.9%
共産党 1.7%
国民の生活が第一 1.5%

(編集注:一部省略

この結果だけ見れば、次の選挙自民党が圧勝か!? と思われるかもしれない。

しかし実はこのアンケート、なんとニコニコ動画ネット調によるものだったのだ。ネット上では較的民主党かれやすく、そもそもニコニコユーザーの少なからずは選挙権を持っていない。それに加えて投票率の高い年配の方はニコニコ動画をあまり見ていないので、この結果だけで選挙を論ずるのは危険である。しかしもちろん、この結果が100%間違っているという拠もないので、選挙結果がこれと一致する可性も依然として存在していることも忘れてはいけない。さらに選挙の場合は世論調査の結果で有権者の行動が左右される。このことはアナウンス効果と呼ばれる。


記述統計学


記述統計学では、データ(の集まり)の特徴を判り易く表現することを実施する。そうして表現されたものを「統計量」と称する。均は、統計量の一種である。均、標準誤差、中央値、最頻値、標準偏差、分散、度、度、範囲、最小、最大、合計、及び標本数といった代表的な統計量の集まりを「要約統計量」(EXCEL分析ツールでは「基本統計量」)と称する。


平均


データxの合計を標本数で割った、巷で最も染みのある統計量の一つ。データの偏りに左右され易い。EXCELAVERAGE関数められる。

# -*- mode: python; -*-
#
lambda x: sum(x) / len(x)


中央値(メジアン、第2四分位数)


データxを昇順に並べたとき、標本数が奇数の場合はちょうどん中の値、標本数が偶数の場合はん中の2つの値の均をとった統計量。データの偏りに左右され難い。均から最頻値の範囲内に位置する。箱ひげ図では、の中の線として描かれる。EXCELMEDIAN関数められる。

# -*- mode: python; -*-
#
lambda x: sorted(x)[len(x)//2] if len(x) % 2 != 0 else sum(sorted(x)[len(x)//2-1:len(x)//2+1]) / 2


分散


データxの散らばりの度合いを示す統計量。後述の標準偏差の2乗。値をデータmuで引いた偏差(xe-mu)を2乗している為、元のデータ単位と一致しない。

標本分散

偏差の2乗の総和を標本数で割った、分散の一種。単に「分散」といえば一般にこちらをす。EXCELのVAR.P関数められる。

# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / len(x)

不偏分散

偏差の2乗の総和を1つ少ない標本数で割った、分散の一種。 後述の推測統計学で用いられることが多い。EXCEL分析ツールの「分散」はこちらをす。EXCELのVAR.S関数められる。

# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / (len(x)-1)


標準偏差


データxの散らばりの度合いを示す統計量。分散の平方根である為、元のデータ単位と一致する。標準偏差1は、分散1と等価である。

標本標準偏差

標本分散の平方根。単に「標準偏差」といえば一般にこちらをす。EXCELSTDEV.P関数められる。

# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) / len(x))**0.5

不偏標準偏差

不偏分散の平方根EXCEL分析ツールの「標準偏差」はこちらをす。EXCELSTDEV.S関数められる。

# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) /  (len(x)-1))**0.5


偏差値


偏差値

# -*- mode: python; -*-
#
lambda xe, mu, std: (xe-mu)*10 / std + 50


推測統計学


推測統計学とは、限られた標本(サンプル)から調したい集団全体の特徴を推測する学問である。その応用事例として、前述の世論調査や、所謂「人工知能」等がある。


統計的検定(統計的仮説検定)


統計検定(日本統計学会が宰する某資格検定試験との混同を避ける為「」の字は必須。)とは、標本を用いて、集団に関する統計的判断を下す方法である。

仮説(H0)とそれに対する対立仮説(H1)を立て、もし帰仮説が棄却された場合、対立仮説が有意(大方正しいだろう)と結論づけられる。一般に、肯定されることを期待される方を対立仮説に、否定されることを期待される方を帰仮説に設定する。例えば、前述の「日本人パンよりご飯の方が好き」を対立仮説に、その否定形を帰仮説に設定する。


関連動画



■sm7230761[ニコ動]

■sm5469917[ニコ動]


関連商品


■az4274068552
■az4641053715


関連コミュニティ


■community


関連項目



最終更新日: 21/06/05 15:25
タグ検索 パソコン版を見る


[0]TOP
ニコニコ動画モバイル
運営元:ドワンゴ