生まれる曜日は神様次第 | 統計アラカルト [実践] | 逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓rpnの実践ウェブ   
rpn hacks! アールピーエヌ・ハックスサイトマップ

rpn | 実践 | 統計アラカルト | 統計に関する話題をrpnで探求!統計的に検証してみよう。

HOME > 実践 > 統計アラカルト > 生まれる曜日は神様次第

hatena twitter facebook rss ソーシャルブックマーク

生まれる曜日は神様次第

 出産は人生の一大イベント。無事な出産は身内一同の願いです。生まれる日も曜日も神様次第だけど、一つの新しい命が万全の準備と態勢で生まれてくる…。そう思っている人が多いでしょう。

実は生まれる日がコントロールされているという話があります。計画分娩です。土日は病院も人手不足でなるべく平日に出産してもらいたいので、陣痛促進剤等で土日休日の出産を少なくしているという話です。この話、本当でしょうか。

もし生まれる曜日に人為的な操作がなされていないなら、生まれた曜日をたくさん集計して、曜日別に数をカウントすれば、大体均等になるはずです。それがあまりにも偏っていると怪しいということになります。

出生の曜日に偏りがあるかどうかを統計的に検証してみましょう。

タウン情報誌の誕生日から

 タウン情報誌に誕生を祝うコーナーがあります。子供の写真に名前と誕生日が書かれています。ここ半年のものをピックアップして、誕生日の曜日に偏りがあるのかどうか調べてみましょう。

情報誌をめくりながら誕生日をファイルの"birthday.txt"に入力しました。全部で152件のデータです。ファイルの内容は以下のように8桁の年月日形式になっています(順不同)。

  >type birthday.txt
     :
  20090625
  20090624
     :
  20090627
  20090626
     :


これらの日付から曜日を計算するのですが、一つ一つカレンダーで曜日を確認していては日が暮れてしまいます。表計算ソフトの数式を使ってもいいのですが、本ウェブサイトの応用コーナー曜日計算のrpnプログラムを紹介していますので、そのプログラムを使えば簡単そうです。

以下のようにweekdayプログラムにbirthday.txtを流し込めば、曜日に対応した数値が出てきます(曜日と数値の対応についてはrpn入門(初級編)ガウス記号を参照)。そのコードをfreqプログラムを使って振り分けます。

  >rpn -c weekday <birthday.txt | rpn -c freq >tmp


これでtmpファイルに曜日に対応した数値と、その曜日に生まれた人の数が格納されました。ファイル内容を確認してみましょう。

  >type tmp
  4 22
  3 21
  2 21
  1 23
  0 22
  6 24
  5 19


順番はばらばらですが、曜日に対応した数が生まれた人の数になっています。次に日曜日から土曜日の順に並び替えてから、xypとnpdでグラフ化します。

  >sort tmp | xyp -x,6 -y,30 -s1,10 -m | npd
  ^y 30
  |
  |
  |     *                                *
  *            *     *      *
  |                               *
  ~
  |                                      x
  |o                                     6
  +-----|------|-----|------|------|----->
  日    月     火    水     木     金    土


あまり偏っていない感じですね。ところで、まったく偏らなかった場合の出生数はいくらでしょうか。このまったく偏らない理論値は、全体のデータ数を7で割った数になります。要は全データ数を曜日数で割った平均値ですね。

  >rpn -c count <birthday.txt
  152
  >rpn 152 7 /
  21.7143


理論値は21.7になりました。そこで、実際の出生数(実績値)と平均出生数(理論値)をペアにして並べてみます。

  >rpn x _ 21.7143 <tmp
  22 21.7143
  21 21.7143
  21 21.7143
  23 21.7143
  22 21.7143
  24 21.7143
  19 21.7143


この実績値と理論値のペアがあれば、統計的な手法を使って偏りがあるかどうかを調べることができます。その統計的手法は適合度検定(別名χ2乗検定)というのですが、rpnプログラムのtstfitを使って行います(詳しくはビジネス統計(検定編)にあります)。このrpnプログラムを使えば、あっという間に検定結果が出てきます。

  >rpn x _ 21.7143 <tmp | rpn -c tstfit
  0.710526


結果は0.7でした。この数値から偏っているかいないかを判定する確率を計算します。以下のように計算するのですが、結果は0.99になります(rpn式の詳しい説明はビジネス統計(検定編)にあります)。

  >rpn .01 0 6 -c prob-chi -r 72 | rpn -c integral | rpn 1 x -
  0.994272


つまり偏りがないと言える確率は99%ということになります。言い換えると、「偏っているとは言えない」「出生のコントロールはない」という結論です。ちょっと安心しましたか。

厚生労働省の統計では

 でも、タウン情報誌から引っ張り出した152件のサンプル数は少ないのかもしれません。もっと多くのデータで検証すると結果が異なってしまうかもしれません。そこで、別のデータをピックアップしてみました。

20年前の少々古いデータですが、厚生労働省のホームページにあったので、これを使って再度、検定してみます。ファイルの"birthold.txt"に曜日別の出生数が格納されています。

  >type birthold.txt
  225538
  254610
  273218
  275663
  269068
  268862
  254745


当時の日曜日から土曜日までの出生数です(年末年始、祝日等は無視)。全部で26万人のデータになるので、調査する集団としては十分です。では、このデータの平均出生数を求めて、実績値と理論値のペアを作りましょう。

  >rpn -c sum <birthold.txt -fd | rpn 7 /
  260243
  >rpn 260243 <birthold.txt >tmp
  >type tmp
  225538 260243
  254610 260243
  273218 260243
  275663 260243
  269068 260243
  268862 260243
  254745 260243


実績値と理論値のペアをグラフにしてみますね。

  >rpn 1 -c rownum <tmp | xyp -x,7 -y200000,300000 -k2 -s1,50000 -m | npd
  ^y 300000
  |
  |
  |                     *
  |               *          *     *
  |    +     +    +     +    +     +     +
  |          *                           *
  -
  |
  |
  |
  |    *
  |
  |                                      x
  |                                      7
  +2000|0----|-----|----|-----|-----|---->
       日    月    火   水    木    金   土


"*"が実績の誕生曜日度数、"+"が理論的な平均値です。今度は日曜日がとても少ない感じがします。結果は異なるのでしょうか。適合度検定(χ2乗検定)をしてみます。

  >rpn 260243 <birthold.txt | rpn -c tstfit
  7011.49
  >rpn .5 0 6 -c prob-chi -r 35058 | rpn -c integral | rpn 1 x -
  1.5e-05


結果はほとんど0%です。これはほぼ100%の確率で偏っていないとは言えないというこになります。つまり生まれる曜日に偏りがあるということです。これが人為的なものでなく偶然にそうなったという確率はほとんど0%なのです。

先ほどとは結論が逆になりました。確かに、20年前のデータなので古すぎるという感じもしますが、厚生労働省の10年前のデータでも曜日による偏りの傾向は変わっていないようです。

こちらの検証の方が圧倒的にデータ量が多いわけですから、どうやら生まれる曜日に偏りがあると結論付けてもよいようですね。残念ながら、これが現実です。

次は…

 出生曜日の偏りが統計による検定で見えてきました。でも、本当にそうなのでしょうか。集計済みのデータではなく実際の誕生日から検証してみたいものです。誕生日の大量取得は容易ではありませんが、芸能人の誕生日なら集めることができます。ついでに外国籍の芸能人の誕生日も集めて検証してみましょう。どうなるでしょうか。やはり、曜日に偏りはあるのでしょうか。

番外編として、誕生月の偏りに関しても統計的に検証しています。誕生数の少ない月はあるのでしょうか。あなたの生まれた月は多数派なのでしょうか。

続き(part2)はこちらLinkIcon

情報関連記事として、応用コーナー誕生日と曜日があります。日付から曜日への変換について興味のある人は閲覧ください。

警告rpnプログラムを実行するには、rpn試用版かrpn標準版が必要です(バージョンの違いはこちら)。

情報rownumはカンタン分析パッケージに同梱されています。freqはrpnマイスターパッケージに同梱されています。integralはビジネス統計(推定編)に同梱されています。tstfit, prob-chiはビジネス統計(検定編)に同梱されています。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。

統計アラカルト

統計的に検証してみよう

※実践コーナーのTOP

紹介 rpnの利用シーンはこちら…

講座初めての人のrpn基礎もどうぞ
講座しっかり学べるrpn入門もどうぞ
講座すぐに使えるdos入門もどうぞ
物語データを見抜くojt物語もどうぞ

実践他の分野への挑戦は実践TOP

応用rpnアプリケーションは応用TOP

part2

統計的に検証してみよう

※実践コーナーのTOP

講座初めての人のrpn基礎もどうぞ
講座しっかり学べるrpn入門もどうぞ
講座すぐに使えるdos入門もどうぞ
物語データを見抜くojt物語もどうぞ

実践他の分野への挑戦は実践TOP

応用rpnアプリケーションは応用TOP

書籍紹介

記事に関連した書籍

本ウェブサイトで扱った話題に関連した書物で、スタッフが実際に読了したものを紹介。

書籍数学の書籍
数の世界は思ったよりもエキサイティング

書籍投資の書籍
失敗しない投資には広範囲で実践的な知識が必要

警告バックスラッシュはエンマークに読み替えて下さい(IE)。
バックスラッシュとエンマーク

警告文字で作られた図表や式が崩れることがあります。ブラウザによっては固定幅フォントをMSゴシックにするときれいに表示されます。それでも崩れる場合は図表や式をメモ帳にコピー後、閲覧下さい。

警告rpn試用版と標準版(2kリビジョン)はダブルクォートで囲って下さい。

rpn 1 2 + ⇒ rpn "1 2 +"
rpn 1 -c foo ⇒ rpn "1" -c "foo"

ダブルクォートは省略できることが多いのですが、慣れない間は囲んだほうが無難です。なお、本ウェブサイトの記事ではrpn標準版(98リビジョン)を使用しているため囲っていません。詳しくは技術サポートの「rpn TIPS参照ください。

注意rpnの障害情報はこちら

警告rpn試用版の場合、複雑なプログラムや処理時間のかかるプログラムの一部には動作しないものがあるかもしれません。あくまで無料提供であることを勘案・了承ください。rpn標準版は、すべてのプログラムが動作します。