生まれる曜日は神様次第 part2
有名人の誕生曜日だと
一応、統計的な結果は出たのですが、曜日別に集計済みの加工されたデータではなく、生(ナマ)の誕生日データから曜日に偏りがないかを調べてみたいですね。
誕生日がしっかり分かってしかも量が多いとなれば有名人です。もし、出生曜日に偏りがあるのなら、有名人の誕生した曜日を集計しても同じような結論になるはずです(曜日と有名人に関連性はないと仮定して)。
そこで、有名人の誕生日を1960年代から1990年代半ばまでの約35年間分を集めてみました。有名人には外国人もいますから、日本人と思われる人だけを名前(漢字)で判断してピックアップします。
全ての有名人が網羅されているかは分かりませんし、日本で生まれて苗字がアルファベットの有名人もいるでしょうから、正確さは少々劣ります。しかし、全部で1万6千人のサンプルなので多少の誤差は統計的に許容できるでしょう。
それでは検証を始めましょう。japan.txtに日本人の有名人の誕生日が格納されていますので、上記と同じ手順で検定してみます。
>type tmp
0 1943
1 2453
2 2531
3 2336
4 2364
5 2378
6 2262
流石に厚生労働省に比べるとデータ数は見劣りしますが、タウン情報誌から集めたデータに比べれば十分なデータ量です。曜日別に集計された出生数をグラフで表すと次になります。
^y 3000
|
|
|
- *
| *
| * * *
| *
|
-
*
|
|
| x
| 6
+1500-|------|-----|------|------|----->
日 月 火 水 木 金 土
先の厚生労働省のデータと似て、日曜の出生数が少ない感じを受けます。実績値と理論値のペアを作ってみましょう。
16267
>rpn x _ 16267 7 / <tmp
1943 2323.86
2453 2323.86
2531 2323.86
2336 2323.86
2364 2323.86
2378 2323.86
2262 2323.86
このデータをグラフにすると以下になります。
^y 3000
|
|
|
- *
| *
| + + + + + + +
| *
|
-
| *
|
|
| x
| 7
+1500|-----|-----|----|-----|-----|---->
日 月 火 水 木 金 土
"*"が実績値で"+"が理論値です。やっぱり先の厚生省のパターンと似たような感じですね。早速、適合度検定(χ2乗検定)を行います。
91.7245
>rpn .1 0 6 -c prob-chi -r 918 | rpn -c integral | rpn 1 x -
0
数値計算上では0%になってしまいました。偏りがないと言える確率がゼロです。有名人でも出生曜日の偏りが確認できました。やはり生まれる曜日には偏りがあるようです。分かりやすく言えば、休日に生まれる人は少なく、平日に生まれる人が多いということです。
外国人の有名人なら
外国人の有名人だとどうなるでしょうか。日本の場合は産婦人科の医療体制等の問題があるのでしょうが、外国人の場合にはそれと異なる傾向が出てくるのでしょうか(苗字がアルファベットの有名人は全て外国で生まれたと仮定)。検定の手順は同じです。
>type tmp
0 465
1 538
2 588
3 584
4 555
5 610
6 526
これでtmpファイルに曜日別の出生数が格納されました。
3866
>rpn x _ 3866 7 / <tmp
465 552.286
538 552.286
588 552.286
584 552.286
555 552.286
610 552.286
526 552.286
次に実績値と理論値のペアをグラフ表示してみます。
^y 700
|
|
|
- *
| * *
|
| + + + + + + +
| * *
-
|
| *
|
| x
| 7
+400-|-----|-----|----|-----|-----|---->
日 月 火 水 木 金 土
どうも曜日別の出生数パターンは同じ感じですね。検定してみましょう。
25.5908
>rpn .1 0 6 -c prob-chi -r 256 | rpn -c integral | rpn 1 x -
0.000276
なんと外国人の有名人でも同じ傾向です。出生の曜日に偏りがあります。海外でも出産事情は同じということでしょうか。
生まれる曜日には偏りがあるという事実の受け止め方
さて、この生まれる曜日に偏りがある(平日に生まれる数が多く休日には少ない)という傾向(統計的には確証された)は何を意味するのでしょうか。インターネットを調べると肯定的な意見と否定的な意見が存在します。
否定的な意見は想像に難くありません。自然分娩を尊重する立場で、陣痛促進剤等で生まれる日(曜日)をコントロールするのは好ましくないという意見です。生まれる日をコントロール(計画分娩)することによる母子への影響も懸念しています。
面白いのは肯定的な意見で、産科医の不足自体は認めるものの、休日は病院が手薄になるのだから受け入れの体制やバックアップ体勢を考えれば平日の方が逆に安全であるという意見です。お産に伴う多くのリスクに対処するため日々進歩してきた医療の恩恵に与るのは当たり前のようにも思えます。
あなたはどちらの意見を受け入れますか。
番外編:生まれる月に偏りはあるのか
番外編です。曜日に偏りがあったので、日本人の有名人の誕生日ファイルを使って生まれる月に偏りがあるかどうか検定してみました。rpnで年月日のデータを月だけに変換してから、月毎に誕生した数をカウントしてみました。
>type tmp
1 1348
2 1303
3 1400
4 1298
5 1335
6 1301
7 1383
8 1423
9 1440
10 1408
11 1227
12 1401
次に実績値と理論値とのペアを作ります。16267は全データの件数です。12で割って月平均の誕生数ですね。
1348 1355.58
1303 1355.58
1400 1355.58
1298 1355.58
1335 1355.58
1301 1355.58
1383 1355.58
1423 1355.58
1440 1355.58
1408 1355.58
1227 1355.58
1401 1355.58
グラフ化すると以下のようになります。結構、面白いグラフになりました。季節によってかなり違うようです。
出生数
^y 1500 *:実績値
| +:理論値
|
| * *
1400 * *
| * *
|
| + + + + + + + + + + + +
| *
1300 * *
| *
|
|
| * x
| 12
+--1--2--3---4--5--6---7--8--9---10-11->月
では検定してみましょう。
33.4034
>rpn .1 0 11 -c prob-chi -r 335 | rpn -c integral | rpn 1 x -
0.000453
0.5%弱の確率しかありません。つまり生まれる月には偏りがあるということです。月をよく見てみると4月、6月と11月生まれが少ないことが分かります。逆に8月と9月生まれは多いようです。ということは、十月十日を考えると7月~9月と2月(年度の切り替え前と夏場)の妊娠は少なく、11月と12月(晩秋から初冬)の妊娠が多いということですね。
ちなみに、十月十日(とつきとおか)は10ヶ月目の10日を意味するので、妊娠期間は9ヶ月と10日に値します。
rpnプログラムを実行するには、rpn試用版かrpn標準版が必要です(バージョンの違いはこちら)。
rownumはカンタン分析パッケージに同梱されています。freqはrpnマイスターパッケージに同梱されています。weekdayはカレンダー・システムパッケージに同梱されています。integralはビジネス統計(推定編)に同梱されています。tstfit, prob-chiはビジネス統計(検定編)に同梱されています。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。