生まれる曜日は神様次第 part2 | 統計アラカルト [実践] | 逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓rpnの実践ウェブ   
rpn hacks! アールピーエヌ・ハックスサイトマップ

rpn | 実践 | 統計アラカルト | 統計に関する話題をrpnで探求!統計的に検証してみよう。

HOME > 実践 > 統計アラカルト > 生まれる曜日は神様次第 part2 hatena yahoo buzzurl livedoor del.icio.us nifty newsing twitter facebook rss ソーシャルブックマーク

生まれる曜日は神様次第 part2

前のページに戻るLinkIcon

有名人の誕生曜日だと

 一応、統計的な結果は出たのですが、曜日別に集計済みの加工されたデータではなく、生(ナマ)の誕生日データから曜日に偏りがないかを調べてみたいですね。

誕生日がしっかり分かってしかも量が多いとなれば有名人です。もし、出生曜日に偏りがあるのなら、有名人の誕生した曜日を集計しても同じような結論になるはずです(曜日と有名人に関連性はないと仮定して)。

そこで、有名人の誕生日を1960年代から1990年代半ばまでの約35年間分を集めてみました。有名人には外国人もいますから、日本人と思われる人だけを名前(漢字)で判断してピックアップします。

全ての有名人が網羅されているかは分かりませんし、日本で生まれて苗字がアルファベットの有名人もいるでしょうから、正確さは少々劣ります。しかし、全部で1万6千人のサンプルなので多少の誤差は統計的に許容できるでしょう。

それでは検証を始めましょう。japan.txtに日本人の有名人の誕生日が格納されていますので、上記と同じ手順で検定してみます。

  >rpn -c weekday <japan.txt | rpn -c freq | sort >tmp
  >type tmp
  0 1943
  1 2453
  2 2531
  3 2336
  4 2364
  5 2378
  6 2262


流石に厚生労働省に比べるとデータ数は見劣りしますが、タウン情報誌から集めたデータに比べれば十分なデータ量です。曜日別に集計された出生数をグラフで表すと次になります。

  >xyp -x,6 -y1500,3000 -m -s1,500 <tmp | npd
  ^y 3000
  |
  |
  |
  -            *
  |     *
  |                  *      *     *
  |                                      *
  |
  -
  *
  |
  |
  |                                      x
  |                                      6
  +1500-|------|-----|------|------|----->
  日    月     火    水     木     金    土


先の厚生労働省のデータと似て、日曜の出生数が少ない感じを受けます。実績値と理論値のペアを作ってみましょう。

  >rpn -c count <japan.txt
  16267
  >rpn x _ 16267 7 / <tmp
  1943 2323.86
  2453 2323.86
  2531 2323.86
  2336 2323.86
  2364 2323.86
  2378 2323.86
  2262 2323.86


このデータをグラフにすると以下になります。

  >rpn x _ 16267 7 / <tmp | rpn 1 -c rownum | xyp -x,7 -y1500,3000 -s1,500 -k2 -m | npd
  ^y 3000
  |
  |
  |
  -               *
  |          *
  |    +     +    +     +    +     +     +
  |                                      *
  |
  -
  |    *
  |
  |
  |                                      x
  |                                      7
  +1500|-----|-----|----|-----|-----|---->
       日    月    火   水    木    金   土


"*"が実績値で"+"が理論値です。やっぱり先の厚生省のパターンと似たような感じですね。早速、適合度検定(χ2乗検定)を行います。

  >rpn x _ 16267 7 / <tmp | rpn -c tstfit
  91.7245
  >rpn .1 0 6 -c prob-chi -r 918 | rpn -c integral | rpn 1 x -
  0


数値計算上では0%になってしまいました。偏りがないと言える確率がゼロです。有名人でも出生曜日の偏りが確認できました。やはり生まれる曜日には偏りがあるようです。分かりやすく言えば、休日に生まれる人は少なく、平日に生まれる人が多いということです。

外国人の有名人なら

 外国人の有名人だとどうなるでしょうか。日本の場合は産婦人科の医療体制等の問題があるのでしょうが、外国人の場合にはそれと異なる傾向が出てくるのでしょうか(苗字がアルファベットの有名人は全て外国で生まれたと仮定)。検定の手順は同じです。

  >rpn -c weekday <foreign.txt | rpn -c freq | sort >tmp
  >type tmp
  0 465
  1 538
  2 588
  3 584
  4 555
  5 610
  6 526


これでtmpファイルに曜日別の出生数が格納されました。

  >rpn -c count <foreign.txt
  3866
  >rpn x _ 3866 7 / <tmp
  465 552.286
  538 552.286
  588 552.286
  584 552.286
  555 552.286
  610 552.286
  526 552.286


次に実績値と理論値のペアをグラフ表示してみます。

  >rpn x _ 3866 7 / <tmp | rpn 1 -c rownum | xyp -x,7 -y400,700 -s1,100 -k2 -m | npd
  ^y 700
  |
  |
  |
  -                                *
  |               *     *
  |
  |    +     +    +     +    +     +     +
  |          *                           *
  -
  |
  |    *
  |
  |                                      x
  |                                      7
  +400-|-----|-----|----|-----|-----|---->
       日    月    火   水    木    金   土


どうも曜日別の出生数パターンは同じ感じですね。検定してみましょう。

  >rpn x _ 3866 7 / <tmp | rpn -c tstfit
  25.5908
  >rpn .1 0 6 -c prob-chi -r 256 | rpn -c integral | rpn 1 x -
  0.000276


なんと外国人の有名人でも同じ傾向です。出生の曜日に偏りがあります。海外でも出産事情は同じということでしょうか。

生まれる曜日には偏りがあるという事実の受け止め方

 さて、この生まれる曜日に偏りがある(平日に生まれる数が多く休日には少ない)という傾向(統計的には確証された)は何を意味するのでしょうか。インターネットを調べると肯定的な意見と否定的な意見が存在します。

否定的な意見は想像に難くありません。自然分娩を尊重する立場で、陣痛促進剤等で生まれる日(曜日)をコントロールするのは好ましくないという意見です。生まれる日をコントロール(計画分娩)することによる母子への影響も懸念しています。

面白いのは肯定的な意見で、産科医の不足自体は認めるものの、休日は病院が手薄になるのだから受け入れの体制やバックアップ体勢を考えれば平日の方が逆に安全であるという意見です。お産に伴う多くのリスクに対処するため日々進歩してきた医療の恩恵に与るのは当たり前のようにも思えます。

あなたはどちらの意見を受け入れますか。

番外編:生まれる月に偏りはあるのか

 番外編です。曜日に偏りがあったので、日本人の有名人の誕生日ファイルを使って生まれる月に偏りがあるかどうか検定してみました。rpnで年月日のデータを月だけに変換してから、月毎に誕生した数をカウントしてみました。

  >rpn 10000 % <japan.txt | rpn 100 / i | rpn -c freq >tmp
  >type tmp
  1 1348
  2 1303
  3 1400
  4 1298
  5 1335
  6 1301
  7 1383
  8 1423
  9 1440
  10 1408
  11 1227
  12 1401


次に実績値と理論値とのペアを作ります。16267は全データの件数です。12で割って月平均の誕生数ですね。

  >rpn x _ 16267 12 / <tmp
  1348 1355.58
  1303 1355.58
  1400 1355.58
  1298 1355.58
  1335 1355.58
  1301 1355.58
  1383 1355.58
  1423 1355.58
  1440 1355.58
  1408 1355.58
  1227 1355.58
  1401 1355.58


グラフ化すると以下のようになります。結構、面白いグラフになりました。季節によってかなり違うようです。

  >rpn x _ 16267 12 / <tmp | rpn 1 -c rownum | xyp -x,12 -y1200,1500 -k2 -s1,100 -m -n | npd
  出生数
  ^y 1500                           *:実績値
  |                                 +:理論値
  |
  |                         *  *
  1400                            *      *
  |        *            *
  |
  |  +  +  +   +  +  +  +   +  +  +  +   +
  |               *
  1300  *            *
  |            *
  |
  |
  |                                  *   x
  |                                     12
  +--1--2--3---4--5--6---7--8--9---10-11->月


では検定してみましょう。

  >rpn x _ 16267 12 / <tmp | rpn -c tstfit
  33.4034
  >rpn .1 0 11 -c prob-chi -r 335 | rpn -c integral | rpn 1 x -
  0.000453


0.5%弱の確率しかありません。つまり生まれる月には偏りがあるということです。月をよく見てみると4月、6月と11月生まれが少ないことが分かります。逆に8月と9月生まれは多いようです。ということは、十月十日を考えると7月~9月と2月(年度の切り替え前と夏場)の妊娠は少なく、11月と12月(晩秋から初冬)の妊娠が多いということですね。

ちなみに、十月十日(とつきとおか)は10ヶ月目の10日を意味するので、妊娠期間は9ヶ月と10日に値します。

実践統計アラカルトに戻るLinkIcon

情報関連記事として、応用コーナー誕生日と曜日があります。日付から曜日への変換について興味のある人は閲覧ください。

警告rpnプログラムを実行するには、rpn試用版かrpn標準版が必要です(バージョンの違いはこちら)。

情報rownumはカンタン分析パッケージに同梱されています。freqはrpnマイスターパッケージに同梱されています。weekdayはカレンダー・システムパッケージに同梱されています。integralはビジネス統計(推定編)に同梱されています。tstfit, prob-chiはビジネス統計(検定編)に同梱されています。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。

統計アラカルト

統計的に検証してみよう

※実践コーナーのTOP

紹介 rpnの利用シーンはこちら…

講座初めての人のrpn基礎もどうぞ
講座しっかり学べるrpn入門もどうぞ
講座すぐに使えるdos入門もどうぞ
物語データを見抜くojt物語もどうぞ

実践他の分野への挑戦は実践TOP

応用rpnアプリケーションは応用TOP

part2

統計的に検証してみよう

※実践コーナーのTOP

講座初めての人のrpn基礎もどうぞ
講座しっかり学べるrpn入門もどうぞ
講座すぐに使えるdos入門もどうぞ
物語データを見抜くojt物語もどうぞ

実践他の分野への挑戦は実践TOP

応用rpnアプリケーションは応用TOP

書籍紹介

記事に関連した書籍

本ウェブサイトで扱った話題に関連した書物で、スタッフが実際に読了したものを紹介。

書籍数学の書籍
数の世界は思ったよりもエキサイティング。

  • 書籍統計の書籍
  • ビジネスで統計が使えるととっても有利。

書籍投資の書籍
失敗しない投資には広範囲で実践的な知識が必要。

警告バックスラッシュはエンマークに読み替えてください( IEのみ)。
バックスラッシュとエンマーク

警告文字で作られた図表や式が崩れることがあります。ブラウザによっては固定幅フォントをMSゴシックにするときれいに表示されます。それでも崩れる場合は図表や式をメモ帳にコピー後、閲覧下さい。

警告rpn試用版と標準版(2kリビジョン)はダブルクォートで囲ってください。

rpn 1 2 + ⇒ rpn "1 2 +"
rpn 1 -c foo ⇒ rpn "1" -c "foo"

ダブルクォートは省略できることが多いのですが、慣れない間は囲んだほうが無難です。なお、本ウェブサイトの記事ではrpn標準版(98リビジョン)を使用しているため囲っていません。詳しくは技術サポートの「rpn TIPS参照ください。

注意rpnの障害情報はこちら

警告rpn試用版の場合、複雑なプログラムや処理時間のかかるプログラムの一部には動作しないものがあるかもしれません。あくまで無料提供であることを勘案・了承ください。rpn標準版は、すべてのプログラムが動作します。