統計学を学び始めた
その1

株式会社LIG

Tomoki Komatsu

統計学とは???

統計学
is

集めたデータを整理する学問である

統計学を勉強する理由???

見るべき数字を把握するためかなと小松は考えます。

見るべき数字について考える

そこで母集団と標本

母集団とは

数値をとる際に対象となるもの全てです。
日本の20代の男性へのアンケートとなれば、日本中の20代男性が対象となります。

標本とは

母集団の中から絞り込んだ対象です。
母集団で計測することが信頼性が高く望ましいのですが現実的ではないので母集団から抽出した対象を標本と呼びます。

図解

つまり

基本的には標本から数値をとることになります。

※標本の抽出方法については今後学べるはず!

データには2種類ある

見るべき数字であるデータには大きく2種類あります

カテゴリカルデータ

好きな食べ物や支持政党のような数えることが出来ないデータです。

量的データ

身長や体重など数値そのものを足したり引いたりすることに
意味のあるデータです。

さらに・・・量的データは2つに分けることができます。

離散型データ

車やサイコロの値など隣り合う2つの数値の間に値がないものです。

連続データ

身長や体重など細かく連続するデータです。
例えば身長は170cmと171cmの間に170.5や170.01など連続した数値もあります。

代表値

平均や中央値、最頻値が代表値と呼ばれます

中央値

データを大きさ順に並べた時に中央にくる値

例えば・・・平均年収と一口に言っても

となりますよね???

これは天上人も一般市民も同列にされてしまっているからです。

このようにデータに大きな乖離がある場合は中央値を求める方が妥当だったります。

12, 90, 24, 53, 9, 33 と偶数個のデータを昇順に整列してみると・・・

9, 12, 24, 33, 53, 90

そして真ん中の2433を足して割る2をした数値が中央値となります。

この場合・・・(24 + 33) / 2 = 28.5

奇数個の場合は純粋に真ん中の値が中央値となります。

最頻値

データの中で最も多い値のことです。

練習問題

↓の中央値と平均を求めてみましょう。

48, 4, 33, 45, 16, 22, 39, 35, 43, 12

回答

中央値:4, 12, 16, 22, 33, 35, 39, 43, 45, 48

なので( 33 + 35 ) / 2 = 34

平均:(48 + 4 + 33 + 45 + 16 + 22 + 39 + 35 + 43 + 12) / 10 = 29.7

平均と中央値どっちを使うべき???

まずは平均と中央値の2つを出して、この2つが大きく乖離していなければ平均を見る、乖離していれば中央値を見るとよいと思います。

小ネタ

普段つかっている平均には3つの種類があります。

  • 相加平均
  • 相乗平均
  • 調和平均

普段使用している平均は相加平均です。

詳細はこちらで

データのバラつきを調べる標準偏差

ざっくりいうと平均からのズレを表す指標

特徴

最小値は0となり・・・

バラつきが大きければ、標準偏差の値も大きくなる

公式

なるほど???

とりあえずやってみよう

A、Bクラスのそれぞれのテストの結果はしたのとおりでした。どっちの方がバラつきは少なかったでしょうか???

A 87 56 34 78 71 92 59 43 62 38
B 45 81 96 91 73 87 35 79 22 38

計算方法

まずA、Bともに平均を出します。そして後は愚直に計算!!!

Aの平均;62

Bの平均;64.7

Aの標準偏差:19.04

Bの標準偏差:25.52
となるはず!

つまり・・・

A(19.94) < B(25.52)となるためBのほうがバラつきがある

小ネタ

グラフの使い方

数字を見せる時いい感じにグラフを利用しますが、
各グラフの特徴に合わせて使いましょう!

棒グラフ

大小を表す

折れ線グラフ

変化を表す

円グラフ

割合を表す

帯グラフ

割合を比べる

第1回は終わり!

次回はヒストグラム、相関関係、正規分布とかまでいければ・・・

参考

おわり

- Try the online editor
- Source code & documentation