統計学
is
集めたデータを整理する学問である
見るべき数字を把握するためかなと小松は考えます。
数値をとる際に対象となるもの全てです。
日本の20代の男性へのアンケートとなれば、日本中の20代男性が対象となります。
母集団の中から絞り込んだ対象です。
母集団で計測することが信頼性が高く望ましいのですが現実的ではないので母集団から抽出した対象を標本と呼びます。
基本的には標本から数値をとることになります。
※標本の抽出方法については今後学べるはず!見るべき数字であるデータには大きく2種類あります
好きな食べ物や支持政党のような数えることが出来ないデータです。
身長や体重など数値そのものを足したり引いたりすることに
意味のあるデータです。
さらに・・・量的データは2つに分けることができます。
車やサイコロの値など隣り合う2つの数値の間に値がないものです。
身長や体重など細かく連続するデータです。
例えば身長は170cmと171cmの間に170.5や170.01など連続した数値もあります。
平均や中央値、最頻値が代表値と呼ばれます
データを大きさ順に並べた時に中央にくる値
例えば・・・平均年収と一口に言っても
となりますよね???
これは天上人も一般市民も同列にされてしまっているからです。
このようにデータに大きな乖離がある場合は中央値を求める方が妥当だったります。
12, 90, 24, 53, 9, 33 と偶数個のデータを昇順に整列してみると・・・
9, 12, 24, 33, 53, 90
そして真ん中の24と33を足して割る2をした数値が中央値となります。
この場合・・・(24 + 33) / 2 = 28.5
奇数個の場合は純粋に真ん中の値が中央値となります。
データの中で最も多い値のことです。
↓の中央値と平均を求めてみましょう。
48, 4, 33, 45, 16, 22, 39, 35, 43, 12
中央値:4, 12, 16, 22, 33, 35, 39, 43, 45, 48
なので( 33 + 35 ) / 2 = 34
平均:(48 + 4 + 33 + 45 + 16 + 22 + 39 + 35 + 43 + 12) / 10 = 29.7
まずは平均と中央値の2つを出して、この2つが大きく乖離していなければ平均を見る、乖離していれば中央値を見るとよいと思います。
普段つかっている平均には3つの種類があります。
普段使用している平均は相加平均です。
ざっくりいうと平均からのズレを表す指標
最小値は0となり・・・
バラつきが大きければ、標準偏差の値も大きくなる
なるほど???
A、Bクラスのそれぞれのテストの結果はしたのとおりでした。どっちの方がバラつきは少なかったでしょうか???
A | 87 | 56 | 34 | 78 | 71 | 92 | 59 | 43 | 62 | 38 |
---|
B | 45 | 81 | 96 | 91 | 73 | 87 | 35 | 79 | 22 | 38 |
---|
まずA、Bともに平均を出します。そして後は愚直に計算!!!
Aの平均;62
Bの平均;64.7
Aの標準偏差:19.04
Bの標準偏差:25.52
となるはず!
A(19.94) < B(25.52)となるためBのほうがバラつきがある
数字を見せる時いい感じにグラフを利用しますが、
各グラフの特徴に合わせて使いましょう!
大小を表す
変化を表す
割合を表す
割合を比べる
次回はヒストグラム、相関関係、正規分布とかまでいければ・・・