統計学(statistics)とは、統計に関する研究を行う学問である。
ポストを読み込み中です
https://twitter.com/gacco_MOOC/status/1331871487792349188
元々は国家の状態を把握するための学問。後に数学的に発展していく。
現在ではほぼあらゆる企業、学問分野で使用されており、恐らくはもっとも汎用性のある学問。
統計学を利用してなんらかの仮説を実証するものと、統計学そのものを数学的に研究する場合の二種類あるが、前者の場合は最近だと統計ソフト(EXCELが有名だろう)が発達しているので数学的知識に乏しい人でも統計学が使えるようになった。便利な時代である。
記述統計学、推測統計学、及びベイズ統計学の3種類に大別できる。
例えば誰かが「日本人はパンよりご飯の方が好き」という主張をしたとしよう。しかし、ただそう主張しただけでは「お前がそう思うんならそうなんだろうな。お前ん中ではな」と言われてしまうのがオチである。そのため彼が自分の主張を認めてもらいたいのならば、彼は主張を正しいと証明するための「ソース」、「証拠」が必要となる。運良くネット上などにソースが転がっていればよいのだが、もしなければ彼は自分で調査して証拠を作り出す必要がある。
では実際に彼はどういう調査をすれば良いだろうか?真っ先に思いつくのは「全ての日本人に『あなたはパンとご飯、どっちが好きですか?』とアンケートを取る」方法である。しかし一億三千万人以上いる日本人全てにアンケートを取るのは明らかに現実的ではない。かといって適当に10人くらいに聞いてみたところで「それお前の周りだけじゃね?」と言われてしまうだけだ。それでは何人ならアンケートの結果が信用できると言えるだろうか?統計学はこういうときに大体どれくらいの人数にアンケートをすればある程度信頼できるものになるかを教えてくれる学問なのだ。
仮説の実証というのは学問はもちろん日常生活でも常に要求されうることである。例えば「お客さんはどんなことを会社に要求しているのか」、「読者はどんな漫画が読みたいのか」そういう意味で、統計学を学ぶことは有用なことだろう。
「統計学的にこれは既に証明されている」、「〜という統計データが存在する」
普段からこのような言葉を目にすることは多いだろう。しかしこれらの言葉。実に胡散臭いのである。実際に統計データが発表者によって恣意的に結果が操作されている場合も少なくない。いわゆる数字のマジックというやつである。
アンケートの数字そのものが改竄されている場合は論外として、統計学的に正しい操作をしても結果を実際の状態と大きくずらす(ずれる)ことは非常に容易いことなのである。一例を以下にあげる。
内閣支持率調査 2012/10/26を行い、85,658人の方に回答をいただきました。
結果は次のようになりました。
政党 支持率 民主党 4.6% 自民党 32.2% 維新の会 5.8% 公明党 1.9% 共産党 1.7% 国民の生活が第一 1.5% (編集注:一部省略)
この結果だけ見れば、次の選挙は自民党が圧勝か!? と思われるかもしれない。
しかし実はこのアンケート、なんとニコニコ動画のネット調査によるものだったのだ。ネット上では比較的民主党が叩かれやすく、そもそもニコニコユーザーの少なからずは選挙権を持っていない。それに加えて投票率の高い年配の方はニコニコ動画をあまり見ていないので、この結果だけで選挙を論ずるのは危険である。しかしもちろん、この結果が100%間違っているという証拠もないので、選挙結果がこれと一致する可能性も依然として存在していることも忘れてはいけない。さらに選挙の場合は世論調査の結果で有権者の行動が左右される。このことはアナウンス効果と呼ばれる。
記述統計学では、或るデータ(の集まり)の特徴を判り易く表現することを実施する。そうして表現されたものを「統計量」と称する。平均は、統計量の一種である。平均、標準誤差、中央値、最頻値、標準偏差、分散、尖度、歪度、範囲、最小、最大、合計、及び標本数といった代表的な統計量の集まりを「要約統計量」(EXCEL分析ツールでは「基本統計量」)と称する。
データx
の合計を標本数で割った、巷で最も馴染みのある統計量の一つ。データの偏りに左右され易い。EXCELのAVERAGE関数で求められる。
# -*- mode: python; -*-
#
lambda x: sum(x) / len(x)
データx
を昇順に並べたとき、標本数が奇数の場合はちょうど真ん中の値、標本数が偶数の場合は真ん中の2つの値の平均をとった統計量。データの偏りに左右され難い。平均から最頻値迄の範囲内に位置する。箱ひげ図では、箱の中の線として描かれる。EXCELのMEDIAN関数で求められる。
# -*- mode: python; -*-
#
lambda x: sorted(x)[len(x)//2] if len(x) % 2 != 0 else sum(sorted(x)[len(x)//2-1:len(x)//2+1]) / 2
データx
の散らばりの度合いを示す統計量。後述の標準偏差の2乗。値をデータの平均mu
で引いた偏差(xe-mu
)を2乗している為、元のデータの単位と一致しない。
偏差の2乗の総和を標本数で割った、分散の一種。単に「分散」といえば一般にこちらを指す。EXCELのVAR.P関数で求められる。
# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / len(x)
偏差の2乗の総和を1つ少ない標本数で割った、分散の一種。 後述の推測統計学で用いられることが多い。EXCEL分析ツールの「分散」はこちらを指す。EXCELのVAR.S関数で求められる。
# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / (len(x)-1)
データx
の散らばりの度合いを示す統計量。分散の平方根である為、元のデータの単位と一致する。標準偏差1は、分散1と等価である。
標本分散の平方根。単に「標準偏差」といえば一般にこちらを指す。EXCELのSTDEV.P関数で求められる。
# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) / len(x))**0.5
不偏分散の平方根。EXCEL分析ツールの「標準偏差」はこちらを指す。EXCELのSTDEV.S関数で求められる。
# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) / (len(x)-1))**0.5
→偏差値
# -*- mode: python; -*-
#
lambda xe, mu, std: (xe-mu)*10 / std + 50
推測統計学とは、限られた標本(サンプル)から調査したい母集団全体の特徴を推測する学問である。その応用事例として、前述の世論調査や、所謂「人工知能」等がある。
統計的検定(日本統計学会が主宰する某資格検定試験との混同を避ける為「的」の字は必須。)とは、標本を用いて、母集団に関する統計的判断を下す方法である。
帰無仮説(H0)とそれに対する対立仮説(H1)を立て、もし帰無仮説が棄却された場合、対立仮説が有意(大方正しいだろう)と結論づけられる。一般に、肯定されることを期待される方を対立仮説に、否定されることを期待される方を帰無仮説に設定する。例えば、前述の「日本人はパンよりご飯の方が好き」を対立仮説に、その否定形を帰無仮説に設定する。
掲示板
82 ななしのよっしん
2024/03/04(月) 01:02:57 ID: 5dWROb5tyN
前から思ってることなんだけど、統計の話題で母数を母集団分布の特徴値以外の意味で使うのはどういう意図があるの?
「検査母数」とか「母数全体を上手くシャッフル」とか何を言っているの?
83 ななしのよっしん
2024/05/05(日) 10:31:21 ID: d3wna9bSvE
母数とかいう紛らわしい翻訳したやつが悪いんだよ
サンプル数とサンプルサイズは海外でも混同されてるようだしさ
遺伝学で優性・劣性を顕性・潜性に言い換えたように統計学も一度用語を整理した方が良い
84 ななしのよっしん
2024/06/05(水) 19:11:37 ID: /TgtAwn6pw
提供: 奥沢美咲
提供: ゲスト
提供: GES#0571
提供: saki
提供: コズモ
急上昇ワード改
最終更新:2025/04/17(木) 12:00
最終更新:2025/04/17(木) 11:00
ウォッチリストに追加しました!
すでにウォッチリストに
入っています。
追加に失敗しました。
ほめた!
ほめるを取消しました。
ほめるに失敗しました。
ほめるの取消しに失敗しました。