「離散型確率(二項分布)」から一部抜粋
…それでは、確率pの違いによって、数式がどのような分布を作り出すのか、二項分布をグラフで表してみましょう。試行回数は10回として、p=0.5、0.1、0.9の場合で描いてみます。
|
|
| + <-- p=0.1 p=0.9 --> -
+ p=0.5 -
| |
| v
| *
| + * * -
|
| * *
|
| * + - * x
-o - - - - - - + + + 10
+-------------------------------------->
テキストグラフィックの合成なので、少々見づらいですが、"+"がp=0.1の時の二項分布、"*"が0.5の時の二項分布、"-"が0.9の時の二項分布です(どれも試行回数は10回)。プロットされたテキスト文字を頭の中のイメージで繋いでみてください。p=0.5(起こる確率と起こらない確率が同じ)は左右対称ですが……
「離散型確率(超幾何分布)」から一部抜粋
…前回、二項分布の説明に使用した10個のボールですが、1つ取り出しては元に戻していました。しかし、元に戻さなかった時はどうなるのでしょうか。これは、「袋の中に1~10の番号が振られたボールがあって、取り出して番号をメモします。ボールはそのままで袋に戻しません。これを3回続けたとして、番号が全て偶数である確率はいくらか」という問題になります(この試行は前回のボールの取り出しが今回のボールの取り出しに影響を及ぼすこと、つまり従属事象であることが重要です)。
こういった事象の説明に適した分布が超幾何分布です。超幾何事象の確率を算出する数式は…
「離散型確率(パスカル分布)」から一部抜粋
…この数式は今までとは異なり試行回数が規定されていないのが面白いところですが、数式の意味は「r回目の成功(生起)までに失敗する回数xの確率」です。今までは「試行数x回中でr回生起する(起こる)確率」だったのですが、今度は「r回目の成功(生起)までに費やす失敗数xの確率」を問題にしています(*1)。例えば、硬貨を投げて3回表が出るまでに10回失敗する確率を求めるには…
「離散型確率(ポアソン分布)」から一部抜粋
…ちなみに、m=30くらいになると以下のグラフのようになります。
|
|
| **
| ** *
| * * <-- m=30
| * *
| *
| * *
| * *
| * *
| * *
| ** ** x
************ ***********60
+-------------------------------------->
ポアソン分布の計算式から、希に生起する(起こる)事柄の数を推定することができます。つまり、一定の時間や空間といった範囲の中で起こる数を確率的に計算することで、期待される数を推定することが…
「連続型確率(指数分布)」から一部抜粋
…今まで登場した分布はグラフのx軸が飛び飛びの値しか取れない離散型の確率分布だったのですが、今回説明する指数分布はx軸がどのような値でも取れる連続型の確率分布です。連続型分布の数式や利用形式は離散型のそれと異なりますので、違いを感じ取りながら進みましょう。
指数分布は時間が経過するにつれ、急速に発生割合が小さくなるような事象にとても適しています。機械装置や部品の故障率、寿命等とうまく適合します。また、銀行の窓口に客が到着する時間間隔やATMの操作時間、スーパーのレジ精算時間等も指数分布で説明できるので、いろいろな分析が可能に…
「連続型確率(ガウス分布)」から一部抜粋
…機械の設定が同じでも真ん中ストライクを中心に(ギアの調子、風、ボールの状態、沢山の予測不能な条件により)ばらけますが、これも中心から外れた距離の分布を取るとガウス分布になってしまいます。
この強力な確率分布は以下の数式で表されます(ビジネス統計(基礎編)既出)。対応するrpn式も併せて示します。
x
- ---
1 2
f(x) = ------ e ...... a)
___
√2π
rpn [刻み幅] x -c prob-gau [-r 刻み数] ...... a')
これは標準化したガウス分布ですが、xの値はどのような数値でも…
「母平均の区間推定」から一部抜粋
…データの代表値としての平均はとてもよく使われます。記述統計学でも、統計を学ぶ第一歩は平均でした。平均を出す場合には全てのデータを加算してデータ数で割ればよいのですが、ある地区に住む主婦1,000人のへそくり額を知ることは困難です。1,000人のデータ収集も大変(コスト高)ですが、そもそも言ってくれるかどうか(技術的難度高?)期待は持てません。しかし、20人なら何とかなるかもしれません。このようにして、収集した20のデータから1,000人のへそくり額平均を求めたいと言うのが「母平均の区間推定」になります。つまり、20人の標本で1,000人の母集団の平均を範囲を設けて推定しようというわけです(○○~○○万円の範囲というように)…
「母分散の区間推定」から一部抜粋
…区間推定するための手順を示します。4つの手順で区間推定するのですが、事前に標本分散等を求めておかなくても、rpnを使ってデータを直接、統計処理できます。
手順① 標本(データ)をファイルとして準備する。
手順② 使用する式を決める(上記フローチャートを利用)。
手順③ 信頼係数から有意水準%点を求める。
※χ2乗分布の場合は自由度(データ数-1)を考慮。
手順④ rpnで計算して推定区間を求める。
====== ================================================
手順①から④までをもう少し具体的に示しましょう。例えば、ある分野の書籍価格を集めたデータが10個あるとして、母分散を信頼係数95%として…
「母比率の区間推定」から一部抜粋
…つまり、標本数600世帯の場合、15%±2.86%の誤差になります。確実に操作できた3世帯の影響範囲は600で割ると0.005なので0.5%ということになりますが、そもそも誤差が2.86%もあるので操作の影響があったのかどうかを検出することは不可能ということになります。
ちなみに、母集団である関東地区の世帯数は約1580万世帯なので、有限母集団であるとも言えますが、10万を越えているので修正の必要はありません。敢えて有限母集団修正すると以下の計算のとおりですが、その差はとても小さく…
「必要な標本数」から一部抜粋
…1068件の標本が必要ですね。これは母集団がどれだけあるか分からないけれども、95%の信頼区間で誤差を±3%以内に納めるために、1068件のデータを採取する必要があることを示しています。
では、母集団の数が1000の場合の必要標本数はどれだけでしょうか。標本数は減るのでしょうか、増えるのでしょうか。このケースは、「有限母集団における母比率区間推定に必要な標本数」を計算することになりますので、rpnで以下のように計算…
ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。
本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。
本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。