2021/09/13

統計学 – カイ2乗検定を学習しよう

WRITER: m-mukaida

 

はじめに

統計学は、推測統計学、記述統計学、ベイズ統計学の大きく3つに分けることができます。

記述統計学  :収集したデータの統計量を計算し、データの傾向や性質を知るものです
推測統計学  :母集団から採取したデータの特徴から母集団の特性を推測します
ベイズ統計学 :ベイズの定理を用いた統計学です

 

また、推測統計学は、統計的推定、統計的仮説検定の2つに分けることができます。

統計的推定  :母集団の標本データから母集団の特性値を統計学的に推定します
統計的仮説検定:母集団から採取したデータに対する統計量が正しいかを統計学的に検証します

 

今回は推測統計学の統計的仮説検定で用いる検定法の1つである「カイ2乗検定」を学習しようと思います。

検定法には、以下のような種類があります。
・t分布による検定

・F分布による検定
・カイ2乗分布による検定
・正規分布による検定

 

統計的仮説検定の手順

① 仮説を設定します

仮説を立てます。仮説は、導きたい結論とは反対の仮説を設定します。

帰無仮説 :設定する仮説(棄却されることを期待して立てられる仮説)
対立仮説 :導き出したい結論(帰無仮説が棄却されたときに採用される仮説)

② 有意水準を決定します

「5%(0.05)」に設定します。
有意水準とは、設定した仮説が間違っていると判断する(仮説を棄却する)確率のことで、5%や1%が多く使われます。有意水準を5%に設定した場合、5%以下の確率で生じる現象は、非常にまれなことであるとします。

③ 検証します

データから仮説の確率を算出して、検証します。

④ 結論を導きます

検証した結果、設定した仮説が有意水準で指定した棄却域に入らない場合は、帰無仮説が正しいとします。
逆に有意水準で指定した棄却域に入る場合は、対立仮説が正しいとします。

 

仮説検定には、2種類の誤りが生じ得ます。
1つは、帰無仮説が正しい時に帰無仮説を棄却する誤り、もう1つは、対立仮説が正しい時に帰無仮説を棄却しない誤りです。
帰無仮説が正しい時に帰無仮説を棄却する誤りを第1種過誤、対立仮説が正しい時に帰無仮説を棄却しない誤りを第2種過誤といいます。

判断 帰無仮説が正しい 対立仮説が正しい
帰無仮説を棄却 第1種過誤 正しい
帰無仮説を受容 正しい 第2種過誤

 

 Rを使って独立性の検定(カイ2乗検定)を実施

統計解析ソフトRを使って、カイ2乗検定を実施してみます。
Rのインストール方法については、ここでは省略させていただきます。

 

検定内容

ゲームのジャンルでRPGを遊んだことがある100人に「遊ぶ頻度」、「レベル上げが好きかどうか」についてアンケートをとった結果、下記のような回答結果になった場合、「遊ぶ頻度」と「レベル上げが好きかどうか」に関連性は有ると言えるかを有意水準5%で検定します。
回答は、実際のデータではありません。学習用に作成したデータです。

(1) レベル上げが好き (2) レベル上げが嫌い 合計
(A) よくRPGを遊ぶ 30 20 50
(B) RPGはあまり遊ばない 18 32 50
合計 48 52 100

 

帰無仮説と対立仮説

帰無仮説:「RPGを遊ぶ頻度」と「レベル上げが好きかどうか」は独立である(関連性はない)
対立仮説:「RPGを遊ぶ頻度」と「レベル上げが好きかどうか」は独立ではない(関連性がある)

 

ソースコード

(補足)
24行目:検定統計量 =(実際の観測値ー期待値)の2乗 / 期待値
    ※期待値:ある試行を繰り返した時に得られる実現値の平均
30行目:qchisq関数の第1引数は有意水準、第2引数は自由度を指定します。
    ※自由度:クロス集計表がm×nの場合、自由度は、(m-1)×(n-1)
34行目:chisq関数を使用してカイ2乗の実現値の算出も可能です。

 

自由度1のカイ2乗分布

 


自由度1、有意水準5%のカイ2乗分布です。カイ2乗値「3.84」の左側の面積が95%、右側の面積が5%になります。

検定統計量の実現値と「3.84」を比較して結論を出します。
検定統計量の実現値が「3.84」よりも大きい場合は、「5%よりも小さい確率で起こる(稀にしか起こらない)」ということになります。

chisq関数の結果

 

結果

検定統計量の実現値「5.77」は、有位水準5%のカイ2乗値「3.84」より大きいので、帰無仮説を棄却し、対立仮説を採択します。
したがって、「RPGを遊ぶ頻度」と「レベル上げが好きかどうか」には、関連性があるという結論になります。

 

まとめ

今回は統計的仮説検定で用いる検定法の1つである「カイ2乗検定」について統計解析ソフトRを使用して学習しました。
当たり前ですが、データを分析する場合、主観に頼らず統計的に判断することが大切です。
統計解析ソフトRは、大変便利なデータマイニングツールなので、これからも利用していきたいと思います。

 

参考文献

金城 俊哉 著「R統計解析パーフェクトマスター」, 秀和システム

アバター

m-mukaida

開発部
分析基盤グループ