ロト6当選番号のオカルト
ロト6には軸数字、奇偶数、高低数…といった番号の選び方があるようです。番号選びを楽にするために、自分で決まりきったルールを作る参考にするのなら、あり得る考え方なのでしょうが、当選番号を予想・予測するという意味であれば疑問符が付きます。
様々な番号選択の方法(予想?)をよく考え付くものだと思いますが、人を引き込む何らかの魅力があるのは事実なのでしょう。説明を読んでいると初めは「ばかな…」と思っていても「もしかして…」と思い始めるから不思議です。
また、インターネットでロト6をキーワードに検索すると、当たる番号を選べる方法があるといった情報商材のようなものもあります。パチンコ必勝法のようなちょっと怪しい商品です。他にも大量のデータを分析して編み出した「究極のロト6当選番号予想ソフト」と謳っているようなものもあります。中にはロト6を純然たる投資として考えるようなイメージのパソコンソフトもあります(限りなくギャンブルに近い投資ですね)。
いずれにしても、ほとんどのロト6当選番号の予想・予測ソフトは過去の当選番号の出現数の偏りと従属性を元に開発されているようです。24番の出現数が何故かとても少ないとか(出現数の偏り)、前回の当選番号に含まれていた数字を選ぶ(従属性)といった類の予測です。
サイコロの6つの目のそれぞれの出現確率は1/6になるはずですが、細工などによって特定の目の出現確率が歪になっていることを偏りと言います。従属性は試行に関連性があることです。例えば、1の目が出たら次も1の目が出る確率が高いようなら従属性があります。実際は前の目との間に関連はないので従属性はありません(または独立性があると言います)。
サイコロで5回連続で1の目が出たら次も1の目が出るように錯覚しますが、これがギャンブラーの誤謬です。また、バスケットで何回もシュートを成功させている選手のことをホットハンドと言いますが、最後のシュートをその選手に託しても結果は他の選手と変わらないことが統計的に示されています。従属性があるように思えて、実はないケースは意外に多いものです。
結論から言えば、ロト6の当選番号に何らかの法則がある理由はないですし、第n回と第n+1回の抽選順番に関連性がある理由もありません。全てオカルト的な発想でしょう。
そこで、実際に統計的に検証してみましょう。番号を予想・予測する方法の全検証はできませんから、ここでは当選番号の出現回数が偏っているかどうか、前回の当選番号が次の当選番号になりやすいかどうかだけを調べます。
出現回数の検証
ロト6の当選番号は、1から43までの数字から6つを選び出した数列です。発表数字は昇順に並べ替えられていますが、抽選時はバラバラに選ばれます。1つの数字を選んだら2つめは残る42の数字のうちから選ぶことを6回繰り返すわけです。
ちなみに、ロト6はミレニアム(millennium)の2000年10月から始まっていて、年末年始を除く毎週木曜日の18:45に抽選が行なわれます。従って、データは週次で結構な量が期待できます。例えば、以下は連続した抽選100回分の当選番号のデータです。ファイルのnumに格納されているとします。
2 8 10 13 27 30
1 9 16 20 21 43
1 5 15 31 36 38
:
(中略)
:
7 16 34 37 38 39
5 9 12 28 29 39
6 8 11 14 31 33
数字毎に何回出現したか数えてみます。以下のコマンドを入力すれば、tmpファイルに数字と度数が格納されます。
出現数の分布
tmpファイルをxypを使ってグラフ化してみましょう。度数分布が描かれるはずです。
^y 30
|
|
|
-
| * *
| * * * * * * * *
* * * * * *
|** * * * * ** * *** *
- * **** * * * *
| * * * *
|
|
| x
|o 43
+--------|--------|--------|---------|->
横軸が1から43の数字、縦軸が出現数です。出現数が真ん中あたりを中心にバラついていることが分かります。数値で示すと以下の表になります。
2 14 12 16 22 9 32 13 42 13
3 14 13 17 23 17 33 13 43 15
4 12 14 11 24 10 34 12
5 14 15 19 25 18 35 18
6 10 16 18 26 11 36 13
7 11 17 13 27 16 37 20
8 12 18 11 28 17 38 13
9 11 19 14 29 9 39 13
10 12 20 18 30 15 40 14
最小出現数が22番と29番の9回で最大出現数が37番の20回ですね。数字を眺めているだけではよく分からないので、基本統計量を計算してみます(詳しくはビジネス統計(基礎編)にあります)。
デ ー タ 43
最 小 値 9
最 大 値 20
範 囲 11
合 計 値(Σ) 600
平 均 値(μ) 13.9535
分 散 値(σ2) 7.62574
標準偏差(σ) 2.76147
分 散 値(s2) 7.80731
標準偏差(s) 2.79416
歪度(a3≒0) 0.247109
尖度(a4≒3) 2.23847
変動係数(ν) 0.200248
平均は13.95回、標準偏差が2.76です。すると、推測統計では出現数は95%の確率で8.43回から19.48回の範囲にあることになりますね。上の度数分布表を見ても大体あっていると言えます。ちなみに棄却検定をすると、どうなるでしょうか。以下で外れ値を抽出してみます。
何も出力されないので、外れ値はないと判断されていることになります。つまり、当選番号の数字はどれも同じように出現していることを示します。
出現数を適合度検定する
さて、本格的に統計的な検定に入ります。まず、43個の数字から6個を無作為抽出する場合の確率は、以下のrpn式のとおりで約13.95%です。
0.139535
今回の検証では100回の抽選を対象にしていますから、100倍すると13.95回です。つまり、どの数字も理論的には13.95回出現するというわけですね。実際、上の基本統計量を見てみると平均値は13.9535です。気味が悪いくらいにピッタリ一致しています。
出現数の平均値は一致していますが、念のために分布で目視確認してみましょう。
>paste tmp tmp2 | xyp -x,43 -y,30 -s10,10 -k2 -m
^y 30
|
|
|
-
| * *
| * * * * * * * *
* * * * * *
++*+*++++++++++*+*+++++++++++*++++++++++ 13.95
- * **** * * * *
| * * * *
|
|
| x
|o 43
+--------|--------|--------|---------|->
「*」が実際の出現数で、「+」が理論的な出現数です。見た目に2つの分布は大きく違う気がしますが、感覚ではなく統計的に理論値と実際の数値が同じと考えてよいかどうかを検定してみましょう。
まず、帰無仮説ですが「それぞれの数字の出現数は一様分布に適合する」にします。理論値は13.95であること、一様分布ということで適合度検定を行ないます(詳しくはビジネス統計(検定編)にあります)。有意水準はとりあえず5%とします。
23.5059
検定量は23.5です。では、帰無仮説が起こりえる確率を計算してみることにします。
0.990627
99%なので帰無仮説は保留されます。つまりは、数字の出現数は均等に発生していないとは言えないことになります。統計的にはどうしても回りくどい言い方になってしまうのですが、要はそれぞれの数字の出現数は均等であると思ってよいということです。
この結論から数字の出現数の偏りを元にして当選数字を予想・予測することはナンセンスということになりますね。
次は…
ロト6の当選数字に偏りがないことを統計的に検証しました。見た目には何か法則があるように思えても、巷に出回っている予想・予測ソフトで数字の偏りをベースにしているものに期待することはできないようです。
この見た目と統計的な結果の間隔のズレは、実際にロト6をrpnでシミュレーションするとよく分かります。実際にrpnで数字を発生させて仮想でロト6を実行してみることにしましょう。結果は現実のロト6とどう違ってくるでしょうか。さらに、ひっぱり現象に関しても調べてみます。果たして、前回の当選番号と今回のそれには関連性があるのでしょうか。
本ウェブサイトの実戦コーナー(投資アラカルト)にロト6当選金額の期待値が関連記事としてあります。また、応用コーナーのロト6で億万長者になるにも記事があります。興味のある人は閲覧ください。
rpnプログラムを実行するには、rpn試用版かrpn標準版が必要です(バージョンの違いはこちら)。
pasteは講座サポートで公開されています。fold'はユーティリティーパッケージに同梱されています。statinfo, freq, outlierはrpnマイスターパッケージに同梱されています。integralはビジネス統計(推定編)に同梱されています。tstfit, prob-chiはビジネス統計(検定編)に同梱されています。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。