統計学単語

トウケイガク
  • 3
  • 0pt
掲示板へ

統計学(statistics)とは、統計に関する研究を行う学問である。

概要

元々は国家の状態を把握するための学問。後に数学的に発展していく。

現在ではほぼあらゆる企業、学問分野で使用されており、恐らくはもっとも汎用性のある学問。

統計学を利用してなんらかの仮説を実するものと、統計学そのものを数学的に研究する場合の二種類あるが、前者の場合は最近だと統計ソフトEXCELが有名だろう)が発達しているので数学的知識に乏しい人でも統計学が使えるようになった。便利な時代である。

記述統計学、推測統計学、及びベイズ統計学の3種類に大別できる。

統計学の使い方の一例

例えばかが「日本人パンよりご飯の方が好き」というをしたとしよう。しかし、ただそうしただけでは「お前がそう思うんならそうなんだろうな。お前ん中ではな」と言われてしまうのがオチである。そのため彼が自分のを認めてもらいたいのならば、彼はを正しいと明するための「ソース」、「拠」が必要となる。運良くネット上などにソースが転がっていればよいのだが、もしなければ彼は自分で調して拠を作り出す必要がある。

では実際に彼はどういう調をすれば良いだろうか?っ先に思いつくのは「全ての日本人に『あなたはパンご飯、どっちが好きですか?』とアンケートを取る」方法である。しかし一億三千万人以上いる日本人全てにアンケートを取るのは明らか現実的ではない。かといって適当に10人くらいに聞いてみたところで「それお前の周りだけじゃね?」と言われてしまうだけだ。それでは何人ならアンケートの結果が信用できると言えるだろうか?統計学はこういうときに大体どれくらいの人数にアンケートをすればある程度信頼できるものになるかを教えてくれる学問なのだ。

仮説の実というのは学問はもちろん日常生活でも常に要されうることである。例えば「お客さんはどんなことを会社に要しているのか」、「読者はどんな漫画読みたいのか」そういう意味で、統計学を学ぶことは有用なことだろう。

統計は信用できる?

「統計学的にこれは既に明されている」、「〜という統計データが存在する」

普段からこのような言葉をにすることは多いだろう。しかしこれらの言葉。実に胡散臭いのである。実際に統計データが発表者によって恣意的に結果が操作されている場合も少なくない。いわゆる数字のマジックというやつである。

アンケートの数字そのものが竄されている場合は論外として、統計学的に正しい操作をしても結果を実際の状態と大きくずらす(ずれる)ことは非常に容易いことなのである。一例を以下にあげる。

内閣支持率調 2012/10/26を行い、85,658人の方に回答をいただきました。

結果は次のようになりました。

政党 支持率
民主党 4.6%
自民党 32.2%
維新の会 5.8%
公明党 1.9%
共産党 1.7%
国民の生活が第一 1.5%

(編集注:一部省略

この結果だけ見れば、次の選挙自民党が圧勝か!? と思われるかもしれない。

しかし実はこのアンケート、なんとニコニコ動画ネット調によるものだったのだ。ネット上では較的民主党かれやすく、そもそもニコニコユーザーの少なからずは選挙権を持っていない。それに加えて投票率の高い年配の方はニコニコ動画をあまり見ていないので、この結果だけで選挙を論ずるのは危険である。しかしもちろん、この結果が100%間違っているという拠もないので、選挙結果がこれと一致する可性も依然として存在していることも忘れてはいけない。さらに選挙の場合は世論調査の結果で有権者の行動が左右される。このことはアナウンス効果と呼ばれる。

記述統計学

記述統計学では、データ(の集まり)の特徴を判り易く表現することを実施する。そうして表現されたものを「統計量」と称する。均は、統計量の一種である。均、標準誤差、中央値、最頻値、標準偏差、分散、度、度、範囲、最小、最大、合計、及び標本数といった代表的な統計量の集まりを「要約統計量」(EXCEL分析ツールでは「基本統計量」)と称する。

平均

データxの合計を標本数で割った、巷で最も染みのある統計量の一つ。データの偏りに左右され易い。EXCELAVERAGE関数められる。

# -*- mode: python; -*-
#
lambda x: sum(x) / len(x)

中央値(メジアン、第2四分位数)

データxを昇順に並べたとき、標本数が奇数の場合はちょうどん中の値、標本数が偶数の場合はん中の2つの値の均をとった統計量。データの偏りに左右され難い。均から最頻値の範囲内に位置する。箱ひげ図では、の中の線として描かれる。EXCELMEDIAN関数められる。

# -*- mode: python; -*-
#
lambda x: sorted(x)[len(x)//2] if len(x) % 2 != 0 else sum(sorted(x)[len(x)//2-1:len(x)//2+1]) / 2

分散

データxの散らばりの度合いを示す統計量。後述の標準偏差の2乗。値をデータmuで引いた偏差(xe-mu)を2乗している為、元のデータ単位と一致しない。

標本分散

偏差の2乗の総和を標本数で割った、分散の一種。単に「分散」といえば一般にこちらをす。EXCELのVAR.P関数められる。

# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / len(x)

不偏分散

偏差の2乗の総和を1つ少ない標本数で割った、分散の一種。 後述の推測統計学で用いられることが多い。EXCEL分析ツールの「分散」はこちらをす。EXCELのVAR.S関数められる。

# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / (len(x)-1)

標準偏差

データxの散らばりの度合いを示す統計量。分散の平方根である為、元のデータ単位と一致する。標準偏差1は、分散1と等価である。

標本標準偏差

標本分散の平方根。単に「標準偏差」といえば一般にこちらをす。EXCELSTDEV.P関数められる。

# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) / len(x))**0.5

不偏標準偏差

不偏分散の平方根EXCEL分析ツールの「標準偏差」はこちらをす。EXCELSTDEV.S関数められる。

# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) /  (len(x)-1))**0.5

偏差値

偏差値

# -*- mode: python; -*-
#
lambda xe, mu, std: (xe-mu)*10 / std + 50

推測統計学

推測統計学とは、限られた標本(サンプル)から調したい集団全体の特徴を推測する学問である。その応用事例として、前述の世論調査や、所謂「人工知能」等がある。

統計的検定(統計的仮説検定)

統計検定(日本統計学会が宰する某資格検定試験との混同を避ける為「」の字は必須。)とは、標本を用いて、集団に関する統計的判断を下す方法である。

仮説(H0)とそれに対する対立仮説(H1)を立て、もし帰仮説が棄却された場合、対立仮説が有意(大方正しいだろう)と結論づけられる。一般に、肯定されることを期待される方を対立仮説に、否定されることを期待される方を帰仮説に設定する。例えば、前述の「日本人パンよりご飯の方が好き」を対立仮説に、その否定形を帰仮説に設定する。

関連動画

関連商品

関連コミュニティ

関連項目

【スポンサーリンク】

  • 3
  • 0pt
スマホ版URL:
https://dic.nicovideo.jp/t/a/%E7%B5%B1%E8%A8%88%E5%AD%A6

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

統計学

52 ななしのよっしん
2019/09/23(月) 02:57:03 ID: QTXQfr5jKp
(おそらく償の)アンケートに答えるという労を払ってる時点で
もはや集団が作為ではないという問題が
53 ななしのよっしん
2019/09/25(水) 17:55:51 ID: Q3DMTGbIQn
こんな統計はっぱちだ!
御用学者の御用数字だ!
信じるな疑え!発表者に都合がいい数字を発表して発表者の敵を少数悪と断じる為のだ!
実際には私が考えた数字の方が正しい!みんなそう思ってる!

ってな人が嫌になるくらい多い(ソース:知らんな)のに統計を取って発表する意味なんてあるんですか
54 削除しました
削除しました ID: 7Y5DHCNMeA
削除しました
55 ななしのよっしん
2020/03/30(月) 13:46:47 ID: jmy2b8xfsY
1人の死は悲劇だが、100万人の死は統計上の数字に過ぎない
56 ななしのよっしん
2020/05/23(土) 17:32:36 ID: fHX0izJwCU
>>51
そういうアホを理解するためには、統計も必要だけど社会心理学とかをやると面白いよ。教科書に乗せたいくらい典的な内集団バイアスですねぇ…。

>>53
ちゃんと統計を残しておけば、そういうアホに付き合って個人や社会国家が滅になっても後世に教訓を残せるじゃない。
きっと後世の愛しい子孫か詐欺師のどちらかが良いように活用してくれますよ。
統計を読めない(読まない)敗北義者?(どうなろうと)知らんな

>>55
1人の人間が関知できる悲劇の総量に限界があるだけで、100万の統計上の数字の裏には厳然と1人分×100万倍の悲劇が存在しているんだよなぁ…。
どれだけ便利なツールでも、結局は使い手次第ですな。
57 ななしのよっしん
2020/05/23(土) 21:32:32 ID: Jz13EYcu7t
社会人のためのデータサイエンス入門総務省統計局
https://gacco.org/stat-japan/exit
58 ななしのよっしん
2020/06/25(木) 16:29:03 ID: +vHJlWkih8
アホがこの前の抗体調の結果を貼り付けて、潜在的に大阪の方がコロナに感染してるとかデマ流してるやつがいるんだが、こいつに統計学叩き込んでくれないかな

4000人の0.1%3000人の0.17%つまり4000人のうち4人と3000人のうち5人の差で、今回たまたま大阪の方が多かっただけに過ぎないのに、それで大阪の方がコロナに汚染してるとかデタラメ情報を垂れ流してるんだが

少なくともPCR数を表してない、検数を表しない(つまり、操作し放題)東京に言われても何も信用できないんだが
59 ななしのよっしん
2020/07/14(火) 01:02:39 ID: UtN4BnCrlm
誹謗中傷するための知識
60 ななしのよっしん
2020/07/19(日) 11:04:29 ID: VrqsyJlkOa
統計学は使いこなせると非常に強い武器になるから文理問わず学んでほしいところ
統計と言われてアンケートの収集くらいしか思い浮かばないのはもったいない
61 ななしのよっしん
2020/11/21(土) 10:33:23 ID: Jz13EYcu7t
「聞けよお前!」「帰るど!」ひろゆき氏 GoTo見直し問題で意見相違の専門激怒させる
https://news.yahoo.co.jp/articles/a2cae5767f58dc2c72609a3cb55f7195eb272d00exit

ひろゆき氏「GoToトラベルがきっかけにはなっている(という帰仮説を棄却できない)」

おすすめトレンド