ロト6当選番号のオカルト part2
ロト6をシミュレーション
現実のロト6では上記のような結論になりましたが、パソコン上で番号を生成してロト6もどきをシミュレーションしてみましょう。ボーナス番号や当選金額の計算は面倒なので全て省くとして、1から43までの数字をシャッフルして当選数字6つを選び出します。
>rpn 43 -c seq | rpn -c shuffle | rpn 1 6 -c rows >>tmp
:
: 100回繰り返す
:
>rpn 43 -c seq | rpn -c shuffle | rpn 1 6 -c rows >>tmp
これで、tmpファイルに100回分の抽選番号が入っています。statinfoで基本統計量を計算してみましょう。
デ ー タ 43
最 小 値 4
最 大 値 31
範 囲 27
合 計 値(Σ) 600
平 均 値(μ) 13.9535
分 散 値(σ2) 33.3467
標準偏差(σ) 5.77466
分 散 値(s2) 34.1406
標準偏差(s) 5.843
歪度(a3≒0) 0.522454
尖度(a4≒3) 3.18496
変動係数(ν) 0.418748
平均値が13.9535です。理論値と同じです。再度トライしてみましょう。
最 小 値 4
最 大 値 27
範 囲 23
合 計 値(Σ) 600
平 均 値(μ) 13.9535
分 散 値(σ2) 28.2769
標準偏差(σ) 5.3176
分 散 値(s2) 28.9502
標準偏差(s) 5.38054
歪度(a3≒0) 0.192039
尖度(a4≒3) 2.4188
変動係数(ν) 0.385605
やはり同じ平均値です。試行回数を減らして、抽選回数を100回(600/6)から半分の50回(300/6)にしてみます。
最 小 値 3
最 大 値 16
範 囲 13
合 計 値(Σ) 300
平 均 値(μ) 7.31707
分 散 値(σ2) 12.8019
標準偏差(σ) 3.57797
分 散 値(s2) 13.122
標準偏差(s) 3.62242
歪度(a3≒0) 0.916091
尖度(a4≒3) 2.96423
変動係数(ν) 0.495065
出現していない当選数字が出てきています(データ数が41個しかない)。そして、平均値が7.31707で理論値の6.97674(6÷43*50)と違ってきました。以下に25回、5回の抽選回数の場合と併記してみます。
デ ー タ 41 31 12
最 小 値 3 1 2
最 大 値 16 18 3
範 囲 13 17 1
合 計 値(Σ) 300 150 30
平 均 値(μ) 7.31707 4.83871 2.5
分 散 値(σ2) 12.8019 9.94173 0.25
標準偏差(σ) 3.57797 3.15305 0.5
分 散 値(s2) 13.122 10.2731 0.272727
標準偏差(s) 3.62242 3.20517 0.522233
歪度(a3≒0) 0.916091 2.37742 0
尖度(a4≒3) 2.96423 10.2492 1
変動係数(ν) 0.495065 0.662402 0.208893
3回とも平均値が異なっています。それぞれ、理論値は7.31707、4.83871、2.5です。抽選回数が減るに従って平均値がばらつくことが予想されますが、以下に平均値における理論値と実験値との誤差を表にしてみます。
理論値 13.9535 6.97674 3.48837 0.697674
実験値 13.9535 7.31707 4.83871 2.5
誤差百分率 0% 4.65% 27.9% 72.1%
抽選回数が少ないと誤差がとても大きく出ています。5回程度の抽選で出現数字の傾向を語るには拙速すぎることが分かります。逆に言えば、抽選回数が100回もあれば十分なサンプル数ということになりますので、先の検定結果の信頼性はより増しますね。
従属性の検証
ロト6では引っ張り現象というらしいのですが、前回の当選番号に含まれていた数字は次の当選番号になりやすいそうです。本当かどうか調べてみましょう。
と言っても、ロト6の当選番号抽選方法では、サイコロを振るのと同じで前回の出目と次の出目には何の従属性もありません(独立事象)。ロト6も同じはずなのですが…。
まず、上記の100回の抽選データを使って以下のように第n回とn+1回で何個同じ数字があったかを集計します。
2 1 1 16
8 9 5 18
10 16 15 26
13 20 31 27
27 21 36 34
30 43 38 40
| | | | |
+------+-------+-------+-------+
含まれ 含まれ 含まれ
た個数 た個数 た個数
0個 1個 0個
その後、パソコンでシミュレーションした番号を同じようにして集計します。すると、現実のロト6での前回の当選番号に含まれた数字の個数が99個と仮想のロト6での数字が99個準備できます。以下はその数列です。
仮想ロト6 2 0 1 0 1 2 0 0 1 3 0 0 2 1 0 2 1 1 2 0 0 0 1 0 0 ...
一応、基本統計量を計算しておきます。なお、現実のロト6の数列はファイルのdat1に仮想のロト6の数列はファイルのdat2に格納されていることとします。
デ ー タ 99 99
最 小 値 0 0
最 大 値 3 4
範 囲 3 4
合 計 値(Σ) 84 82
平 均 値(μ) 0.848485 0.828283
分 散 値(σ2) 0.633609 0.768493
標準偏差(σ) 0.795995 0.876637
分 散 値(s2) 0.640074 0.776335
標準偏差(s) 0.800046 0.881099
歪度(a3≒0) 0.63802 0.880039
尖度(a4≒3) 2.8083 3.45096
変動係数(ν) 0.942912 1.06377
平均値は現実ロト6が0.848485で仮想ロト6が0.828283です。尖度の違いが目立っているくらいで、他に差はないような気がします。
それでは、2つのグループの平均値に違いがあるかどうかを統計的に見てみます。仮に引っ張り現象があるのなら無作為に選んだはずのグループとの間に違いがあるはずです。つまり、現実のロト6のほうが平均値が高いことになりますね。
検証は母平均の差の検定を使います。帰無仮説は「2つのグループの母平均は等しい」になります(詳しくはビジネス統計(検定編)にあります)。安全を取って両標本には対応関係がなく、両母分散も等しくないと考えてみます。なお、有意水準は5%の両側検定でいいでしょう。
0.168895
計算すると検定量は0.17でした。さっそく、t分布の確率密度を計算してみましょう。上記の検定に対応する自由度は以下で計算します。
194.203
>rpn .001 0 194 -c prob-t -r 171 | rpn -c integral | rpn .5 x -
0.432594
確率は43%です。有意水準である5%に満たないので、帰無仮説は保留です。つまり、2つのグループの平均値に違いがあるとは言えないという結論になります。
ロト6の当選番号を当てる努力は不毛
どんな数列にも何らかの神がかり的な規則性(統計的な検定では得られない何らかの知見)が必ず含まれているとするなら、上記の検定に意味はなくなりますが、普通は引っ張り現象は気のせいだと考えるでしょう。機械的にシャッフルされたボールに神は宿っていません。
結局、統計的な判断としては、ロト6の当選番号を当てることは不可能であることを示しています。何しろ番号は無作為(ランダム)に神の気まぐれで出てきますし、前の抽選の当選番号と次の抽選のそれとも何の関係もないのですから。
本ウェブサイトの実戦コーナー(投資アラカルト)にロト6当選金額の期待値が関連記事としてあります。また、応用コーナーのロト6で億万長者になるにも記事があります。興味のある人は閲覧ください。
rpnプログラムを実行するには、rpn試用版かrpn標準版が必要です(バージョンの違いはこちら)。
pasteは講座サポートで公開されています。shuffle, seqはユーティリティーパッケージに同梱されています。statinfo, freqはrpnマイスターパッケージに同梱されています。nullはカレンダー・システムパッケージに同梱されています。rowsはカンタン分析パッケージに同梱されています。integralはビジネス統計(推定編)に同梱されています。difmeanw, difwelch, prob-tはビジネス統計(検定編)に同梱されています。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。