生まれる曜日は神様次第
出産は人生の一大イベント。無事な出産は身内一同の願いです。生まれる日も曜日も神様次第だけど、一つの新しい命が万全の準備と態勢で生まれてくる…。そう思っている人が多いでしょう。
実は生まれる日がコントロールされているという話があります。計画分娩です。土日は病院も人手不足でなるべく平日に出産してもらいたいので、陣痛促進剤等で土日休日の出産を少なくしているという話です。この話、本当でしょうか。
もし生まれる曜日に人為的な操作がなされていないなら、生まれた曜日をたくさん集計して、曜日別に数をカウントすれば、大体均等になるはずです。それがあまりにも偏っていると怪しいということになります。
出生の曜日に偏りがあるかどうかを統計的に検証してみましょう。
タウン情報誌の誕生日から
タウン情報誌に誕生を祝うコーナーがあります。子供の写真に名前と誕生日が書かれています。ここ半年のものをピックアップして、誕生日の曜日に偏りがあるのかどうか調べてみましょう。
情報誌をめくりながら誕生日をファイルの"birthday.txt"に入力しました。全部で152件のデータです。ファイルの内容は以下のように8桁の年月日形式になっています(順不同)。
:
20090625
20090624
:
20090627
20090626
:
これらの日付から曜日を計算するのですが、一つ一つカレンダーで曜日を確認していては日が暮れてしまいます。表計算ソフトの数式を使ってもいいのですが、本ウェブサイトの応用コーナーに曜日計算のrpnプログラムを紹介していますので、そのプログラムを使えば簡単そうです。
以下のようにweekdayプログラムにbirthday.txtを流し込めば、曜日に対応した数値が出てきます(曜日と数値の対応についてはrpn入門(初級編)のガウス記号を参照)。そのコードをfreqプログラムを使って振り分けます。
これでtmpファイルに曜日に対応した数値と、その曜日に生まれた人の数が格納されました。ファイル内容を確認してみましょう。
4 22
3 21
2 21
1 23
0 22
6 24
5 19
順番はばらばらですが、曜日に対応した数が生まれた人の数になっています。次に日曜日から土曜日の順に並び替えてから、xypとnpdでグラフ化します。
^y 30
|
|
| * *
* * * *
| *
~
| x
|o 6
+-----|------|-----|------|------|----->
日 月 火 水 木 金 土
あまり偏っていない感じですね。ところで、まったく偏らなかった場合の出生数はいくらでしょうか。このまったく偏らない理論値は、全体のデータ数を7で割った数になります。要は全データ数を曜日数で割った平均値ですね。
152
>rpn 152 7 /
21.7143
理論値は21.7になりました。そこで、実際の出生数(実績値)と平均出生数(理論値)をペアにして並べてみます。
22 21.7143
21 21.7143
21 21.7143
23 21.7143
22 21.7143
24 21.7143
19 21.7143
この実績値と理論値のペアがあれば、統計的な手法を使って偏りがあるかどうかを調べることができます。その統計的手法は適合度検定(別名χ2乗検定)というのですが、rpnプログラムのtstfitを使って行います(詳しくはビジネス統計(検定編)にあります)。このrpnプログラムを使えば、あっという間に検定結果が出てきます。
0.710526
結果は0.7でした。この数値から偏っているかいないかを判定する確率を計算します。以下のように計算するのですが、結果は0.99になります(rpn式の詳しい説明はビジネス統計(検定編)にあります)。
0.994272
つまり偏りがないと言える確率は99%ということになります。言い換えると、「偏っているとは言えない」「出生のコントロールはない」という結論です。ちょっと安心しましたか。
厚生労働省の統計では
でも、タウン情報誌から引っ張り出した152件のサンプル数は少ないのかもしれません。もっと多くのデータで検証すると結果が異なってしまうかもしれません。そこで、別のデータをピックアップしてみました。
20年前の少々古いデータですが、厚生労働省のホームページにあったので、これを使って再度、検定してみます。ファイルの"birthold.txt"に曜日別の出生数が格納されています。
225538
254610
273218
275663
269068
268862
254745
当時の日曜日から土曜日までの出生数です(年末年始、祝日等は無視)。全部で26万人のデータになるので、調査する集団としては十分です。では、このデータの平均出生数を求めて、実績値と理論値のペアを作りましょう。
260243
>rpn 260243 <birthold.txt >tmp
>type tmp
225538 260243
254610 260243
273218 260243
275663 260243
269068 260243
268862 260243
254745 260243
実績値と理論値のペアをグラフにしてみますね。
^y 300000
|
|
| *
| * * *
| + + + + + + +
| * *
-
|
|
|
| *
|
| x
| 7
+2000|0----|-----|----|-----|-----|---->
日 月 火 水 木 金 土
"*"が実績の誕生曜日度数、"+"が理論的な平均値です。今度は日曜日がとても少ない感じがします。結果は異なるのでしょうか。適合度検定(χ2乗検定)をしてみます。
7011.49
>rpn .5 0 6 -c prob-chi -r 35058 | rpn -c integral | rpn 1 x -
1.5e-05
結果はほとんど0%です。これはほぼ100%の確率で偏っていないとは言えないというこになります。つまり生まれる曜日に偏りがあるということです。これが人為的なものでなく偶然にそうなったという確率はほとんど0%なのです。
先ほどとは結論が逆になりました。確かに、20年前のデータなので古すぎるという感じもしますが、厚生労働省の10年前のデータでも曜日による偏りの傾向は変わっていないようです。
こちらの検証の方が圧倒的にデータ量が多いわけですから、どうやら生まれる曜日に偏りがあると結論付けてもよいようですね。残念ながら、これが現実です。
次は…
出生曜日の偏りが統計による検定で見えてきました。でも、本当にそうなのでしょうか。集計済みのデータではなく実際の誕生日から検証してみたいものです。誕生日の大量取得は容易ではありませんが、芸能人の誕生日なら集めることができます。ついでに外国籍の芸能人の誕生日も集めて検証してみましょう。どうなるでしょうか。やはり、曜日に偏りはあるのでしょうか。
番外編として、誕生月の偏りに関しても統計的に検証しています。誕生数の少ない月はあるのでしょうか。あなたの生まれた月は多数派なのでしょうか。
rpnプログラムを実行するには、rpn試用版かrpn標準版が必要です(バージョンの違いはこちら)。
rownumはカンタン分析パッケージに同梱されています。freqはrpnマイスターパッケージに同梱されています。integralはビジネス統計(推定編)に同梱されています。tstfit, prob-chiはビジネス統計(検定編)に同梱されています。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。