基本統計量 | package入門(rpnマイスター編) [講座] | 逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓rpnの実践ウェブ   
rpn hacks! アールピーエヌ・ハックスサイトマップ

rpn | 講座 | package入門 | ポテンシャルを飛躍的に高めるrpnパッケージを学習。

基本統計量

 黒点の観測は古くから行われていたようです。近代でも300年を超える黒点数観測データが公開されています。以下のデータは1700年から2008年までの観測ですが、4桁の西暦と黒点数になります。

  1700 5
  1701 11
  1702 16
     :
  (中略)
     :
  2006 15.2
  2007 7.5
  2008 2.9


データが格納されているファイルをdata.txtとして、黒点数の基本統計量を出してみましょう。基本統計量には母数、標本数、最大値、最小値、平均値、中央値、最頻値、分散、標準偏差…などたくさんの統計量があります。

ビジネス統計(基礎編)でも基本統計量の計算を行うrpnプログラムを多数用意しました。平均値ならmean、最大値はmax、中央値はmedian、分散はvar、標準偏差はsdev…のようにです。一つ一つ意味がありますから、データを吟味し、計算して、じっくりと考察するのは大切なことです。

黒点数の基本統計量

 しかし…面倒ですよね、一つ一つ計算するのは。そこで、rpnマイスターパッケージでは、基本統計量でよく使うものだけを取捨選択したstatinfoプログラムを用意しています。実際の使用例で説明します。

  >rpn x _ <data.txt >tmp
  >rpn -c statinfo <tmp
  デ ー タ        309
  最 小 値        0
  最 大 値        190.2
  範    囲        190.2
  合 計 値(Σ)    15373.4
  平 均 値(μ)    49.7521
  分 散 値(σ2)   1631.12
  標準偏差(σ)    40.3871
  分 散 値(s2)   1636.41
  標準偏差(s)    40.4526
  歪度(a3≒0)    0.985734
  尖度(a4≒3)    3.41102
  変動係数(ν)    0.813083


最初のrpn式で西暦をカットして黒点数だけのデータにしてtmpファイルにしています。次にそのtmpファイルをstatinfoプログラムに渡しています。結果は上記のとおりです。

13項目の統計値が並んでいます。中央値等いくつかないものがありますが、よく使うと考えられるものだけをピックアップしてあります。中央値最頻値など計算したい場合や、statinfoが出力する項目の詳細を知りたい場合はビジネス統計(基礎編)を参考にしてください。

ざっと見ると、309年間で黒点が0だったときがあること、最大でも190個であったこと、平均は50個程度だが個数のぶれはかなり大きいこと、ガウス分布とは考えられないことなどが分かります。

複数列も一気に計算

 ちなみに、このstatinfoは複数列のデータにも対応しています。先ほどの309年間の黒点データを例にします。今度はdata.txtの西暦を削除せずにstatinfoに渡してみましょう。

  >rpn -c statinfo <data.txt
  デ ー タ        309     309
  最 小 値        1700    0
  最 大 値        2008    190.2
  範    囲        308     190.2
  合 計 値(Σ)    572886  15373.4
  平 均 値(μ)    1854    49.7521
  分 散 値(σ2)   7956.67 1631.12
  標準偏差(σ)    89.2001 40.3871
  分 散 値(s2)   7982.5  1636.41
  標準偏差(s)    89.3448 40.4526
  歪度(a3≒0)    0       0.985734
  尖度(a4≒3)    1.79997 3.41102
  変動係数(ν)    0.0481903       0.813083


今度は基本統計量が2列表示されていますが、1列目のデータを見ると最小値が1700で最大値が2008ですから西暦の列データであることが分かります。2列目が黒点数の列データということですね。

なお、統計数値の表示形式や桁数がどうなるか分からないので、上記のように表が乱れて表示されることがあります。

見出しのない基本統計量

 このstatinfoですが、データを再利用するには見出し文字が邪魔です。そこで、statinfoプログラムの親戚でstatプログラムも用意しています。statは項目見出しがないstatinfoであると同時に、他のプログラムでデータを再利用しやすくするために表示が横型になっています。例で示します。

  >rpn -c stat <data.txt
  309 572886 1700 2008 1854 89.2001 0 1.79997 0.0481903
  309 15373.4 0 190.2 49.7521 40.3871 0.985734 3.41102 0.813083


黒点数の小数点を切り捨ててからstatに渡しています。計算結果は1行目が西暦のデータで2列目が黒点数のデータです。

それぞれ、左からデータ数、合計値、最小値、最大値、平均値、標準偏差、歪度、尖度、変動係数の順に並んでいます。statinfoと表示順も違いますし、表示項目も少なくなっていることに注意してください。

警告statinfo, statは150列程度を目安に使用してください。

情報本講座で使用したプログラムは、rpnマイスターパッケージとして購入することができます。xypとnpdはrpnの姉妹ソフトウェアです。詳しくはプロダクトを参照ください。

rpnマイスターパッケージ

マイスター

ユーティリティー

カレンダー

警告文字で作られた図表や式が崩れることがあります。ブラウザによっては固定幅フォントをMSゴシックにするときれいに表示されます。それでも崩れる場合は図表や式をメモ帳にコピー後、閲覧下さい。

警告rpn標準版(2kリビジョン)はダブルクォートで囲ってください。

rpn 1 2 + ⇒ rpn "1 2 +"
rpn 1 -c foo ⇒ rpn "1" -c "foo"

ダブルクォートは省略できることが多いのですが、慣れない間は囲んだほうが無難です。なお、本ウェブサイトの記事ではrpn標準版(98リビジョン)を使用しているため囲っていません。詳しくは技術サポートの「rpn TIPS」を参照ください。

注意rpnの障害情報と対策はこちら