統計学単語

トウケイガク
3.3千文字の記事
  • 5
  • 0pt
掲示板へ

統計学(statistics)とは、統計に関する研究を行う学問である。

概要

元々は国家の状態を把握するための学問。後に数学的に発展していく。

現在ではほぼあらゆる企業、学問分野で使用されており、恐らくはもっとも汎用性のある学問。

統計学を利用してなんらかの仮説を実するものと、統計学そのものを数学的に研究する場合の二種類あるが、前者の場合は最近だと統計ソフトEXCELが有名だろう)が発達しているので数学的知識に乏しい人でも統計学が使えるようになった。便利な時代である。

記述統計学、推測統計学、及びベイズ統計学の3種類に大別できる。

統計学の使い方の一例

例えばかが「日本人パンよりご飯の方が好き」というをしたとしよう。しかし、ただそうしただけでは「お前がそう思うんならそうなんだろうな。お前ん中ではな」と言われてしまうのがオチである。そのため彼が自分のを認めてもらいたいのならば、彼はを正しいと明するための「ソース」、「拠」が必要となる。運良くネット上などにソースが転がっていればよいのだが、もしなければ彼は自分で調して拠を作り出す必要がある。

では実際に彼はどういう調をすれば良いだろうか?っ先に思いつくのは「全ての日本人に『あなたはパンご飯、どっちが好きですか?』とアンケートを取る」方法である。しかし一億三千万人以上いる日本人全てにアンケートを取るのは明らか現実的ではない。かといって適当に10人くらいに聞いてみたところで「それお前の周りだけじゃね?」と言われてしまうだけだ。それでは何人ならアンケートの結果が信用できると言えるだろうか?統計学はこういうときに大体どれくらいの人数にアンケートをすればある程度信頼できるものになるかを教えてくれる学問なのだ。

仮説の実というのは学問はもちろん日常生活でも常に要されうることである。例えば「お客さんはどんなことを会社に要しているのか」、「読者はどんな漫画読みたいのか」そういう意味で、統計学を学ぶことは有用なことだろう。

統計は信用できる?

「統計学的にこれは既に明されている」、「〜という統計データが存在する」

普段からこのような言葉をにすることは多いだろう。しかしこれらの言葉。実に胡散臭いのである。実際に統計データが発表者によって恣意的に結果が操作されている場合も少なくない。いわゆる数字のマジックというやつである。

アンケートの数字そのものが竄されている場合は論外として、統計学的に正しい操作をしても結果を実際の状態と大きくずらす(ずれる)ことは非常に容易いことなのである。一例を以下にあげる。

内閣支持率調 2012/10/26を行い、85,658人の方に回答をいただきました。

結果は次のようになりました。

政党 支持率
民主党 4.6%
自民党 32.2%
維新の会 5.8%
公明党 1.9%
共産党 1.7%
国民の生活が第一 1.5%

(編集注:一部省略

この結果だけ見れば、次の選挙自民党が圧勝か!? と思われるかもしれない。

しかし実はこのアンケート、なんとニコニコ動画ネット調によるものだったのだ。ネット上では較的民主党かれやすく、そもそもニコニコユーザーの少なからずは選挙権を持っていない。それに加えて投票率の高い年配の方はニコニコ動画をあまり見ていないので、この結果だけで選挙を論ずるのは危険である。しかしもちろん、この結果が100%間違っているという拠もないので、選挙結果がこれと一致する可性も依然として存在していることも忘れてはいけない。さらに選挙の場合は世論調査の結果で有権者の行動が左右される。このことはアナウンス効果と呼ばれる。

記述統計学

記述統計学では、データ(の集まり)の特徴を判り易く表現することを実施する。そうして表現されたものを「統計量」と称する。均は、統計量の一種である。均、標準誤差、中央値、最頻値、標準偏差、分散、度、度、範囲、最小、最大、合計、及び標本数といった代表的な統計量の集まりを「要約統計量」(EXCEL分析ツールでは「基本統計量」)と称する。

平均

データxの合計を標本数で割った、巷で最も染みのある統計量の一つ。データの偏りに左右され易い。EXCELAVERAGE関数められる。

# -*- mode: python; -*-
#
lambda x: sum(x) / len(x)

中央値(メジアン、第2四分位数)

データxを昇順に並べたとき、標本数が奇数の場合はちょうどん中の値、標本数が偶数の場合はん中の2つの値の均をとった統計量。データの偏りに左右され難い。均から最頻値の範囲内に位置する。箱ひげ図では、の中の線として描かれる。EXCELMEDIAN関数められる。

# -*- mode: python; -*-
#
lambda x: sorted(x)[len(x)//2] if len(x) % 2 != 0 else sum(sorted(x)[len(x)//2-1:len(x)//2+1]) / 2

分散

データxの散らばりの度合いを示す統計量。後述の標準偏差の2乗。値をデータmuで引いた偏差(xe-mu)を2乗している為、元のデータ単位と一致しない。

標本分散

偏差の2乗の総和を標本数で割った、分散の一種。単に「分散」といえば一般にこちらをす。EXCELのVAR.P関数められる。

# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / len(x)

不偏分散

偏差の2乗の総和を1つ少ない標本数で割った、分散の一種。 後述の推測統計学で用いられることが多い。EXCEL分析ツールの「分散」はこちらをす。EXCELのVAR.S関数められる。

# -*- mode: python; -*-
#
lambda x, mu: sum([(xe-mu)**2 for xe in x]) / (len(x)-1)

標準偏差

データxの散らばりの度合いを示す統計量。分散の平方根である為、元のデータ単位と一致する。標準偏差1は、分散1と等価である。

標本標準偏差

標本分散の平方根。単に「標準偏差」といえば一般にこちらをす。EXCELSTDEV.P関数められる。

# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) / len(x))**0.5

不偏標準偏差

不偏分散の平方根EXCEL分析ツールの「標準偏差」はこちらをす。EXCELSTDEV.S関数められる。

# -*- mode: python; -*-
#
lambda x, mu: (sum([(xe-mu)**2 for xe in x]) /  (len(x)-1))**0.5

偏差値

偏差値

# -*- mode: python; -*-
#
lambda xe, mu, std: (xe-mu)*10 / std + 50

推測統計学

推測統計学とは、限られた標本(サンプル)から調したい集団全体の特徴を推測する学問である。その応用事例として、前述の世論調査や、所謂「人工知能」等がある。

統計的検定(統計的仮説検定)

統計検定(日本統計学会が宰する某資格検定試験との混同を避ける為「」の字は必須。)とは、標本を用いて、集団に関する統計的判断を下す方法である。

仮説(H0)とそれに対する対立仮説(H1)を立て、もし帰仮説が棄却された場合、対立仮説が有意(大方正しいだろう)と結論づけられる。一般に、肯定されることを期待される方を対立仮説に、否定されることを期待される方を帰仮説に設定する。例えば、前述の「日本人パンよりご飯の方が好き」を対立仮説に、その否定形を帰仮説に設定する。

関連動画

関連商品

関連コミュニティ

関連項目

【スポンサーリンク】

  • 5
  • 0pt
スマホ版URL:
https://dic.nicovideo.jp/t/a/%E7%B5%B1%E8%A8%88%E5%AD%A6

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

統計学

63 ななしのよっしん
2021/03/12(金) 14:43:13 ID: OLgy+laHgq
統計学では「どう考えても間違って投票してるだろ」って意見は除けて考えるそうだが、率直に言ってかなりアレな意見を多く眼にした身としては「手元のミス」なんかじゃなくて。「マジでそれが正しいと信じてるバカ」なんじゃないのかなと思う。

正答率100%の回答はあり得ない。電球写真を見せられて「」と大に、悪ふざけではなく真剣に回答する少数がいるのが本当の世の中ではないだろうか。
64 ななしのよっしん
2021/03/16(火) 20:24:54 ID: VUc8t3zctv
>>60
武器として使いこなさなくても、統計使って騙そうとするから身を守るとしての使い方のがかに重要
65 ななしのよっしん
2021/04/17(土) 06:05:29 ID: Jz13EYcu7t
統計学Ⅰ:データ分析の基礎(東京大学 他)
https://www.jmooc.jp/20210219-3/exit
66 ななしのよっしん
2021/06/19(土) 10:03:48 ID: sJFYFNvGAH
高卒とか生まれもそうだけど、が低かったり年収が低かったりとその属性が不利に働く事は統計ではっきり出ててるのに
友達はそうじゃない!」とか「○○(有名人)はそうじゃない!」って特例出してきて否定するマジなんなん

ブサイクでも美人結婚してる、だから恋愛人生は見たじゃなく中身!って言う
いや、見たが悪いとそれだけでどれだけ不利に働くと思ってんの…ブサイク全員がその性のメンタルコミュ力持ってる訳じゃないんだぞって事分かってないし

後、今は大企業だって潰れる!だって確かに事実だけど
大企業が潰れる確率とそのよく分からん中小企業が潰れる確率どっちが高いんだよ…って感じ
67 ななしのよっしん
2021/06/20(日) 12:30:34 ID: Ys+SMcK2b/
実際にあった例だが、
絶滅危惧種の保護を推進してる団体が自分たちの成果を誇示するために
「今年に入って絶滅危惧種ウサギ死体発見数がゼロになりました!」という表現を使ったことがある。
一見朗報みたいだが、でもちょっと待てよ?「死体発見数がゼロになった」って「生息数が減している」と同じ意味だろう。
たとえばニホンオオカミ死体発見数なんかゼロに決まってる。生きてる個体がいなかったら死体も見つかるわけないんだから。むしろ野生の生息数が増えてるとするならその分死体の発見数も増えないとおかしい。

「生息数が減している」⇔「死体発見数がゼロになった」
同じ現を表していることなのに、表現を変えるだけでここまで(一見)ポジティブイメージが変わる。
だけでなく、そのデータがどういうことを表しているのか、冷静に吟味する必要がある
68 ななしのよっしん
2021/07/04(日) 01:08:22 ID: cmPYoS1vvE
均値と中央値の違いを意識する流れができていることが喜ばしい
でも何にでも「均値は信用できない中央値を示せ」っていう人、何も学んでないね
69 ななしのよっしん
2021/09/30(木) 02:19:47 ID: fHX0izJwCU
>>68
なんとなく所得格差の拡大に伴い、そういったものの分布が正規分布からベキ分布になってきたのが原因のような気がしますねぇ…(寂寥感)
70 削除しました
削除しました ID: sJFYFNvGAH
削除しました
71 ななしのよっしん
2021/10/14(木) 09:31:10 ID: aKFnyM/Ls7
数学大嫌いだけど、統計は好きだった
現代においては騙されない、振り回されないために絶対必要な学問だと思う。
72 ななしのよっしん
2021/10/19(火) 12:08:20 ID: tJTQS1WmS0
とりあえず2,000人調すれば大丈夫だとトリビアに教えてもらった

急上昇ワード改