「確率分布による検定」から一部抜粋
…後に説明する統計的な検定方法も結局は(確率密度関数から作られる)確率分布を利用しながら検定するわけですから、飾りっ気なしの検定の要を学ぶことになります。
二律背反事象を取り扱う二項分布を使った検定と、ガウス分布を使った検定を取り上げますが、一様分布や指数分布、その他分布でも類似の手順となります。いずれにしても、希であるという事象を5%で見積もります(もっと厳しくしたいならば1%等にする)。そして、事象が起こる確率を求めて、それが5%より上か下かで帰無仮説を棄却するか保留するかを決定します。
では、検定のための手順を示します。4つの手順で検定するのですが、rpnを使って直接、計算…
「母平均の検定」から一部抜粋
…公式や数式の詳しい証明や理論的背景などは省略して、統計的手法の利用を優先して説明していきます。まず、母平均の検定を行なう時の注意点として、母集団がガウス分布に従っていることが望ましいのですが、標本数が多ければ従っていなくても構いません。標本数自体が規定値に満たない小標本の場合は、ガウス分布でなくt分布を利用して検定を行ないます。また、母平均の分散値が分かっている場合と分かっていない場合で計算方法が異なります。言葉で説明すると複雑なので、以下のフローチャートを参考に…
「母分散の検定」から一部抜粋
…逆に有意水準よりも小さいことだけを有意水準0.05(5%)で検定する時は左側の裾野に5%全てを割り振ります。このときの有意水準%点は3.325です。
|
|
- * * *
| * * 自由度9のχ2乗分布
| *
| * *
| *
|5.0% *
| | * *
| v * *
| ** * * * x
|**** *20
*--------|---------|---------|--------->
^
3.325 片側検定
(有意水準0.05(5%))
「母比率の検定」から一部抜粋
…さて、比率の検定は、中心極限定理により母集団の分布がどのようなものでも構わないのが特徴(ガウス分布を前提としない)なのですが、標本数が多いか少ないかによって検定方法が異なります。以下のフローチャートを参考にしましょう。
|
v
YES 標本数は
+-------- 30以上か?
| | NO
v v
【Z検定】 【F検定】
--------- ---------
(ガウス分布) (F分布)
式a
Z検定はガウス分布を利用して検定するものです(*2)。フローチャートにある式aは以下の…
「母平均の差の検定」から一部抜粋
…さて、ここに二組の標本データがあるとします。一組目は18歳女子の身長を集めたデータです。二組目は一組目と同じ条件なのですが、集めた時期が異なります。このような、二組の標本データがあった場合に、それぞれの母平均に差があるかどうかを検定することができます。
ただし、母平均の差の検定では二組の標本データが互いに対応のあるものかどうかによって数式が異なります。互いに対応がある標本とは、例えば患者A~Jまでにある薬を投与して変化があったかどうかを投与前と後でデータ計測する場合があてはまります。データを取る相手(患者)が同じことが重要です。逆に互いに対応がない標本とは、例えば50年前の18歳女子の身長に関するデータと今年の18歳女子の身長に関するデータがあてはまります。この場合は同じ女子からはデータは取れませんね。
まず、二組の標本が互いに対応のある場合について説明しますが…
「母分散の差の検定」から一部抜粋
…2つの統計量が等しくないことを検出しますので、検定統計量が大きいか小さければ検出します。従って、下図にあるように5%が左右に割り振られて、2.5%ずつの確率になります。有意水準%点は有意水準0.05(5%)の場合、0.248と4.026です。
|
|
| **
| * *
| * * 自由度(9,9)のF分布
| *
| *
| * *
| *
| *** 2.5%
|* *** |
|*<- 2.5% ***** v x
** ******************5
*------|-------|-------|-------|------->
^ ^
0.248 両側検定 4.026
(有意水準0.05(5%))
…母分散の差の検定(等分散検定)は母平均の差の検定を適切に行なうためにも重要な検定です。平均の差の検定と異なり、使用する式も1つで使い方は簡単です。rpnを使って以下の問題を実際に解いてみてください。生データを直接に統計処理するので、実際にデータを変更しての再計算が簡単です。どの程度データがばらつくと差が検出されるのかを感じ取ってください…
「母比率の差の検定」から一部抜粋
…例えば、ある地区でのある商品購入率が28.3%、別の地区での購入率が32.9%であった時、統計的に見て購入率に差があると考えていいのでしょうか。32.9%の方が高いことは誰が見ても分かりますが、測定誤差を考えると大して違いはないのかもしれません。もし、購入率の違いによって販売促進方法が違うとしたら…自信を持ってどの地区にどの販売促進を行なうか決定できるでしょうか。
このような場合に、二組の標本の母比率の差を検定することが必要になります。ただし、検定をする際には標本数が必要です。ここで分かりますが、上の疑問には標本数の提示がありません。それでも、32.9%と28.3%か…。4%くらいの違いがあるのか…。と標本数がないことに何の問題点も感じなかったのではないでしょうか。とにかく比率を使った説明に対しては、その割合の有効性を明確に捉える癖をつけることが数値に惑わされない方法です…
「棄却検定」から一部抜粋
…計測ミスやケアレスミスによって他とは掛け離れた変なデータが混じってはいないでしょうか。もちろん、しっかりしたデータ入力と確認は第一条件ですが、あまりにも人海戦術で芸がありません。異常なデータを統計的に見つけることはできないものでしょうか。
そのためには、まず異常なデータの定義をしなければなりません。データの取りうる範囲が決まっていて、それを遥かに逸脱するものがあれば検出するルールであれば比較的簡単そうです。しかし、意外とデータの取りうる範囲は事前に定義できないことが多く、不用意に範囲を限定することは本物のデータを捨て去ることにも…
「適合度検定」から一部抜粋
…手順①から⑦までをもう少し具体的に示しましょう。例えば、6色の色付粒チョコレートが入っている袋があります。その中からチョコレートを1つ出しては色を記録して元に戻します。これを90回繰り返した時に以下の出現回数を得ました。
出現回数 11回 14回 14回 16回 16回 19回
袋の中に6色が均等に入っているかどうかを有意水準0.05(5%)で検定したい…
「独立性検定」から一部抜粋
…事象間の関係はクロス集計で表されます。以下がその例になりますが、度数が記入された分割表になります。
体重軽い(70kg以下) 34 28
体重重い(70kg以上) 23 52
上のような2行2列のクロス表を2×2分割表と言いますが、2行3列ならば2×3分割表になります。それぞれの検定式を作っていると大変なので、一般化するとm×n分割表になります(*1)。この分割表から体重とダイエット経験の間に関係があるか、全く独立なのかを統計的に検定するわけです。なお、独立性の検定もχ2乗分布を使います。以下が検定の数式になります。
*1 本講座はm×n分割表を扱うことにします(当然、2×2も2×3も含まれる)…
ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。
本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。
本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。